AI 新聞繁中

如果您在 2015 年左右建構序列模型，您對世界的認知完全是由循環神經網路（RNNs）所塑造。它們擁有深層次的架構優雅。您將一個詞元（token）輸入網路，它會更新一個固定大小的隱藏狀態，然後丟棄該詞元。在推論期間，記憶體佔用量保持著完美的常數——一種 O(1) 運算，幾乎可以在任何硬體上高效執行。隨後是 2017 年。「Attention Is All You Need」論文發表，整個 AI 生態系隨之轉向。我們用 RNN 的優雅換取了 Transformer 強大的平行處理能力。Transformer 贏得了硬體優勢，因為它能將整個序列映射到 GPU 網格上並一次性訓練。但我們也做了一筆魔鬼交易：鍵值（KV）快取。在 Transformer 中，模型必須明確地將每個先前詞元的高維度表示保留在記憶體中，才能生成下一個詞元。這是一種 O(N^2) 運算。當我們將模型推向 10 萬、100 萬，甚至現在數百萬詞元的上下文視窗時，其運算圖在數學上變得難以接受。我們僅僅為了記憶體讀取，就消耗了大量的高頻寬記憶體。這就是為什麼，如果您現在密切關注 arXiv 資訊流，會注意到一個巨大的趨勢轉變。我們正在見證 RNN 的捲土重來。但這並非對 2010 年代經典長短期記憶網路（LSTM）的懷舊回歸。新一代的 RNNs 具有更大的狀態、資料依賴型閘門，以及大型語言模型時代的訓練方法。它們在大規模上能與 Transformer 的困惑度匹敵，同時保持著那令人稱羨的 O(1) 推論成本。以下將探討推動這場循環模型復興的架構。

循環神經網路意外復興：挑戰 Transformer 的高效替代方案