多工具整合推理讓大型語言模型(LLM)驅動的工具使用代理能夠透過交錯自然語言推理與呼叫外部工具來解決複雜任務。然而,僅使用最終結果獎勵來訓練這類代理,會面臨歸因模糊的問題,使得難以釐清哪些中間步驟(或工具使用決策)導致成功或失敗。在本論文中,我們提出 PORTool,這是一種具重要性感知(importance-aware)的策略優化演算法,它能在結果層級的監督下強化代理的工具使用能力,同時在步驟層級分配獎勵。具體來說,PORTool 會生成一個具獎勵的…