AI 新聞繁中

大型語言模型（LLM）在測試時運算方面的最新進展，使其能夠在生成答案之前執行中間的思維鏈（CoT）推理（思考）。雖然增加思考預算能在推論時帶來穩定的效能提升，但為了實現運算最佳化的推論，LLM 能力、查詢複雜度與最佳預算分配之間的關係仍未被充分理解。為了解決這項挑戰，我們利用「自我一致性」（即多個推理路徑之間的一致性）作為思考必要性的代理指標。我們首先發現，較低的自我一致性表示查詢需要更長時間的思考才能得出正確答案。基於這項洞察，我們引入了 Sonata（自我一致性引導的思考分配轉接器），這是一種輕量級方法，能自適應地分配思考預算，以最佳化效能與效率之間的權衡。Sonata 包含一個轉接器，該轉接器在校準資料集上離線訓練，以便在查詢預填充階段直接從最後一層隱藏表示中預測自我一致性。這項預測隨後會在思考之前，即時引導預算分配。這個轉接器具有通用性，一旦訓練完成即可跨多種任務轉移，並且在推論期間幾乎不產生額外的運算開銷。值得注意的是，Sonata 與現有的 CoT 壓縮方法是正交的，這在管理跨查詢的思考預算時，能進一步提升效率。在多個模型（Qwen3-8B、GPT-OSS-120B、Qwen3-235B-A22B、Intern-S1-mini）和基準測試（AIME24、AIME25、GSM8K、MATH500、GPQA）上進行的廣泛實驗表明，Sonata 在保持相同準確度的情況下，可減少 20% 至 80% 的思考 token，或在相同 token 成本下，將準確度提升高達 5%。

LLM 智慧思考：Apple 提出動態調整推理預算新方法