研究
強化代理:推論時回饋機制優化工具呼叫代理

摘要
本研究探討目前大型語言模型(LLM)工具呼叫代理的評估方式,指出其事後分析的本質無法即時修正錯誤。為彌補此一差距,論文提出將評估機制整合至推論時的執行迴圈中,透過專門的審查代理提供即時回饋,以提升代理的效能。
本論文已被 ACL 2026 的第五屆自然語言生成、評估與指標研討會接受。工具呼叫代理的評估標準包括工具選擇、參數準確性和範圍識別,然而,大型語言模型(LLM)的軌跡評估本質上仍是事後分析。由於與實際執行迴圈脫節,這類評估所識別出的錯誤通常需要透過提示詞微調或重新訓練來解決,且根本無法即時修正代理的行為。為彌補此一差距,我們將評估機制移至推論時的執行迴圈中:一個專門的審查代理會評估…
標籤
大型語言模型工具呼叫代理即時回饋代理強化推論時評估自然語言處理
以上為 AI 自動翻譯導讀。原文版權歸 Apple Machine Learning Research 所有。 建議透過上方「閱讀原文」前往原始網站,以取得最完整資訊與支持原作者。