研究
MIT 研究揭示語言模型規模化效益的原理:超位置現象

摘要
麻省理工學院的研究人員揭示了大型語言模型(LLM)性能為何能穩定地隨規模擴展而提升的機制。他們發現,這種現象源於模型內部的「超位置」(superposition)特性,即模型在有限維度空間中同時儲存多個概念。這項研究指出,真實的語言模型運作在「強超位置」狀態,其錯誤主要來自概念重疊所產生的雜訊,而非概念遺失。
麻省理工學院的研究人員對大型語言模型(LLM)的性能為何能穩定地隨規模擴展而提升,提出了一種機械性的解釋。答案歸結於一種稱為「超位置」(superposition)的現象。模型越大性能越好,是人工智慧研究中最一致的發現之一。無論是將參數、訓練資料或運算資源加倍,語言模型的預測錯誤都會遵循冪次法則下降。這些所謂的「神經規模法則」(Neural Scaling Laws)推動著建立更大規模系統的趨勢,但它們為何存在,卻從未得到充分解釋。由麻省理工學院的 Yizhou Liu、Ziming Liu 和 Jeff Gore 在 NeurIPS 2025 上發表的一項研究,將此現象追溯到模型本身內建的一種幾何特性:「超位置」。語言模型在有限空間中儲存超額概念語言模型需要將數萬個詞元(tokens)甚至更多抽象意義,壓縮到僅有數千個維度的內部空間中。理論上,一個三維空間只能容納三個概念而不產生干擾。LLM 透過在相同維度中同時儲存多個概念來克服這個限制。由此產生的向量會輕微重疊。這種將多重意義擠壓到過小空間的現象,研究人員稱之為「超位置」。直到現在,許多解釋都假設只有最常見的概念能被清晰地表示,而其餘的則會遺失(即「弱超位置」)。麻省理工學院的團隊利用 Anthropic 的簡化模型展示,這種情況與真實 LLM 的實際運作方式不符。兩種機制,兩種解釋研究人員建立了一個高度簡化的 AI 模型,並透過訓練調整器來控制儲存概念的重疊程度。這使得比較兩種極端情況成為可能。在第一種情況,即「弱超位置」下,模型只清晰地儲存最常見的概念,而忽略其餘的。此時的預測錯誤主要來自於被捨棄的稀有概念。性能是否能乾淨地遵循冪次法則擴展,取決於概念在訓練資料中的分佈方式。只有當該分佈本身遵循冪次法則時,錯誤才會隨之遵循。該論文將此稱為「冪次法則輸入,冪次法則輸出」。在第二種情況,即「強超位置」下,模型透過讓其向量輕微重疊來同時儲存所有概念。此時的錯誤不再來自於遺失的概念,而是來自於這些重疊所產生的雜訊。在這裡,一個穩健的模式浮現:將模型的寬度加倍,錯誤大約會減半,這可由一個簡單的幾何關係(1/m,其中 m 是模型的寬度)預測。概念在資料中的分佈方式幾乎不再重要。真實語言模型證實理論為了驗證哪種機制適用於真實系統,該團隊檢查了開源模型 OPT、GPT-2、Qwen2.5 和 Pythia 的輸出層,這些模型的參數範圍從約 1 億到 700 億。結果很明確:所有詞元都在模型中被表示,它們的向量重疊,且這些重疊的強度以精確預測的 1/m 比例縮小。語言模型在「強超位置」機制下運作。測得的規模指數也吻合,落在 0.91,接近理論值 1。Deepmind 的 Chinchilla 資料產生了幾乎相同的 0.88。研究人員表示,這些規模法則直接源於語言模型如何在其表示中以幾何方式組織意義。規模化與架構的實際影響這項工作為 AI 研究中的兩個開放性問題提供了具體答案。首先:規模化最終會停止運作嗎?研究人員認為會,一旦模型的寬度與其詞彙量大小匹配。屆時,將有足夠的空間來表示每個詞元而不重疊,由壓縮表示引起的錯誤將消失。冪次法則會在該邊界處失效。其次:能否加速規模法則,以從每個新增的參數中榨取更多性能?對於自然語言來說,可能不行;因為詞頻分佈相對平坦。但對於相關概念分佈非常不均勻的專業應用,更陡峭的規模化可能可行。這也對架構設計產生影響:積極鼓勵超位置的模型,在相同規模下應能表現更好。Nvidia 的 nGPT 就是一個例子,它將內部向量強制置於單位球體上,使其更密集地打包。然而,這也存在一個問題:概念重疊越多,就越難追溯模型內部實際發生的情況。這對機械可解釋性(mechanistic interpretability)以及延伸到 AI 安全研究來說,是一個真正的挑戰。
標籤
語言模型規模法則超位置現象AI 研究模型架構可解釋性
以上為 AI 自動翻譯導讀。原文版權歸 The Decoder 所有。 建議透過上方「閱讀原文」前往原始網站,以取得最完整資訊與支持原作者。