為了讓 Transformer 語言模型能以高吞吐量提供服務,需要快取 Key-Values (KVs) 以避免在自迴歸生成過程中進行重複計算。然而,KV 快取記憶體的佔用量相當龐大,嚴重影響了服務成本。這項研究旨在減輕這些記憶體需求。儘管近期研究主要透過沿著時間軸進行壓縮和逐出(eviction)來減少 KV 快取,我們認為「深度」維度提供了一個正交且穩健的優化途徑。儘管先前的研究表明為每個層級(layer)都保留完整的快取是多餘的,但實際實作上…