研究
LLM 智慧思考:Apple 提出動態調整推理預算新方法

摘要
Apple 研究人員提出 Sonata 方法,透過評估模型推理路徑的一致性,智慧判斷大型語言模型何時需要投入更多思考資源。此方法能動態分配推理預算,有效減少運算成本,同時維持甚至提升模型準確度,在多個模型和基準測試中展現顯著成效。
大型語言模型(LLM)在測試時運算方面的最新進展,使其能夠在生成答案之前執行中間的思維鏈(CoT)推理(思考)。雖然增加思考預算能在推論時帶來穩定的效能提升,但為了實現運算最佳化的推論,LLM 能力、查詢複雜度與最佳預算分配之間的關係仍未被充分理解。為了解決這項挑戰,我們利用「自我一致性」(即多個推理路徑之間的一致性)作為思考必要性的代理指標。我們首先發現,較低的自我一致性表示查詢需要更長時間的思考才能得出正確答案。基於這項洞察,我們引入了 Sonata(自我一致性引導的思考分配轉接器),這是一種輕量級方法,能自適應地分配思考預算,以最佳化效能與效率之間的權衡。Sonata 包含一個轉接器,該轉接器在校準資料集上離線訓練,以便在查詢預填充階段直接從最後一層隱藏表示中預測自我一致性。這項預測隨後會在思考之前,即時引導預算分配。這個轉接器具有通用性,一旦訓練完成即可跨多種任務轉移,並且在推論期間幾乎不產生額外的運算開銷。值得注意的是,Sonata 與現有的 CoT 壓縮方法是正交的,這在管理跨查詢的思考預算時,能進一步提升效率。在多個模型(Qwen3-8B、GPT-OSS-120B、Qwen3-235B-A22B、Intern-S1-mini)和基準測試(AIME24、AIME25、GSM8K、MATH500、GPQA)上進行的廣泛實驗表明,Sonata 在保持相同準確度的情況下,可減少 20% 至 80% 的思考 token,或在相同 token 成本下,將準確度提升高達 5%。
標籤
大型語言模型LLM 推理思維鏈運算效率自我一致性Apple 研究
以上為 AI 自動翻譯導讀。原文版權歸 Apple Machine Learning Research 所有。 建議透過上方「閱讀原文」前往原始網站,以取得最完整資訊與支持原作者。