AI 新聞繁中

Apple 機器學習新突破：隨機 KV 路由，深度優化 Transformer 模型快取記憶體

Apple Machine Learning Research·2026/05/05·約 1 分鐘

摘要

為了解決大型語言模型在服務時，KV 快取記憶體佔用過高導致成本增加的問題，Apple 機器學習研究團隊提出「隨機 KV 路由」新技術。這項研究著重於從模型「深度」維度進行優化，與傳統沿時間軸壓縮快取的方法不同，旨在透過自適應共享快取來顯著降低記憶體需求。

為了讓 Transformer 語言模型能以高吞吐量提供服務，需要快取 Key-Values (KVs) 以避免在自迴歸生成過程中進行重複計算。然而，KV 快取記憶體的佔用量相當龐大，嚴重影響了服務成本。這項研究旨在減輕這些記憶體需求。儘管近期研究主要透過沿著時間軸進行壓縮和逐出（eviction）來減少 KV 快取，我們認為「深度」維度提供了一個正交且穩健的優化途徑。儘管先前的研究表明為每個層級（layer）都保留完整的快取是多餘的，但實際實作上…

標籤

Apple機器學習Transformer模型KV快取記憶體優化大型語言模型

以上為 AI 自動翻譯導讀。原文版權歸 Apple Machine Learning Research 所有。建議透過上方「閱讀原文」前往原始網站，以取得最完整資訊與支持原作者。