研究
循環神經網路意外復興:挑戰 Transformer 的高效替代方案

摘要
過去主宰序列模型的循環神經網路(RNNs)曾被 Transformer 取代,但隨著 Transformer 在處理長上下文時面臨 O(N^2) 的記憶體瓶頸,新一代 RNNs 正意外復興。這些新型 RNNs 結合了現代訓練方法,能在保持 O(1) 推論成本的同時,達到與 Transformer 匹敵的效能。
如果您在 2015 年左右建構序列模型,您對世界的認知完全是由循環神經網路(RNNs)所塑造。它們擁有深層次的架構優雅。您將一個詞元(token)輸入網路,它會更新一個固定大小的隱藏狀態,然後丟棄該詞元。在推論期間,記憶體佔用量保持著完美的常數——一種 O(1) 運算,幾乎可以在任何硬體上高效執行。隨後是 2017 年。「Attention Is All You Need」論文發表,整個 AI 生態系隨之轉向。我們用 RNN 的優雅換取了 Transformer 強大的平行處理能力。Transformer 贏得了硬體優勢,因為它能將整個序列映射到 GPU 網格上並一次性訓練。但我們也做了一筆魔鬼交易:鍵值(KV)快取。在 Transformer 中,模型必須明確地將每個先前詞元的高維度表示保留在記憶體中,才能生成下一個詞元。這是一種 O(N^2) 運算。當我們將模型推向 10 萬、100 萬,甚至現在數百萬詞元的上下文視窗時,其運算圖在數學上變得難以接受。我們僅僅為了記憶體讀取,就消耗了大量的高頻寬記憶體。這就是為什麼,如果您現在密切關注 arXiv 資訊流,會注意到一個巨大的趨勢轉變。我們正在見證 RNN 的捲土重來。但這並非對 2010 年代經典長短期記憶網路(LSTM)的懷舊回歸。新一代的 RNNs 具有更大的狀態、資料依賴型閘門,以及大型語言模型時代的訓練方法。它們在大規模上能與 Transformer 的困惑度匹敵,同時保持著那令人稱羨的 O(1) 推論成本。以下將探討推動這場循環模型復興的架構。
標籤
循環神經網路Transformer序列模型AI 模型深度學習記憶體效率
以上為 AI 自動翻譯導讀。原文版權歸 The Sequence 所有。 建議透過上方「閱讀原文」前往原始網站,以取得最完整資訊與支持原作者。