本論文已被 ACL 2026 的第五屆自然語言生成、評估與指標研討會接受。工具呼叫代理的評估標準包括工具選擇、參數準確性和範圍識別,然而,大型語言模型(LLM)的軌跡評估本質上仍是事後分析。由於與實際執行迴圈脫節,這類評估所識別出的錯誤通常需要透過提示詞微調或重新訓練來解決,且根本無法即時修正代理的行為。為彌補此一差距,我們將評估機制移至推論時的執行迴圈中:一個專門的審查代理會評估…