研究
PORTool:具重要性感知與獎勵樹的策略優化,強化大型語言模型多工具推理

摘要
大型語言模型(LLM)驅動的工具使用代理,能透過結合自然語言推理與外部工具來解決複雜任務。然而,僅依賴最終結果獎勵的訓練方式,常面臨歸因模糊問題,難以判斷哪些中間步驟導致成功或失敗。為此,本研究提出 PORTool 演算法,透過重要性感知策略優化,在步驟層級分配獎勵,有效提升代理的工具使用能力。
多工具整合推理讓大型語言模型(LLM)驅動的工具使用代理能夠透過交錯自然語言推理與呼叫外部工具來解決複雜任務。然而,僅使用最終結果獎勵來訓練這類代理,會面臨歸因模糊的問題,使得難以釐清哪些中間步驟(或工具使用決策)導致成功或失敗。在本論文中,我們提出 PORTool,這是一種具重要性感知(importance-aware)的策略優化演算法,它能在結果層級的監督下強化代理的工具使用能力,同時在步驟層級分配獎勵。具體來說,PORTool 會生成一個具獎勵的…
標籤
大型語言模型工具使用強化學習策略優化AI研究
以上為 AI 自動翻譯導讀。原文版權歸 Apple Machine Learning Research 所有。 建議透過上方「閱讀原文」前往原始網站,以取得最完整資訊與支持原作者。