研究
Apple 機器學習新突破:隨機 KV 路由,深度優化 Transformer 模型快取記憶體

摘要
為了解決大型語言模型在服務時,KV 快取記憶體佔用過高導致成本增加的問題,Apple 機器學習研究團隊提出「隨機 KV 路由」新技術。這項研究著重於從模型「深度」維度進行優化,與傳統沿時間軸壓縮快取的方法不同,旨在透過自適應共享快取來顯著降低記憶體需求。
為了讓 Transformer 語言模型能以高吞吐量提供服務,需要快取 Key-Values (KVs) 以避免在自迴歸生成過程中進行重複計算。然而,KV 快取記憶體的佔用量相當龐大,嚴重影響了服務成本。這項研究旨在減輕這些記憶體需求。儘管近期研究主要透過沿著時間軸進行壓縮和逐出(eviction)來減少 KV 快取,我們認為「深度」維度提供了一個正交且穩健的優化途徑。儘管先前的研究表明為每個層級(layer)都保留完整的快取是多餘的,但實際實作上…
標籤
Apple機器學習Transformer模型KV快取記憶體優化大型語言模型
以上為 AI 自動翻譯導讀。原文版權歸 Apple Machine Learning Research 所有。 建議透過上方「閱讀原文」前往原始網站,以取得最完整資訊與支持原作者。