微軟研究：AI 長期委派任務的可靠性挑戰與展望

我們最近的論文「LLMs Corrupt Your Documents When You Delegate」引發了關於 AI 系統在委派工作流程中可靠性的討論。我們感謝各界對這項工作的關注，並希望澄清論文所主張和未主張的幾個重要觀點。

這項研究旨在為長期委派和協作任務開發穩健的評估方法。更廣泛地說，這項工作反映了我們持續努力，以更好地理解強大的基準測試表現與某些實際任務之間的差距。透過受控的評估方法，我們檢視了資訊在這些擴展工作流程中保存的程度。在這種受限的設定下，我們觀察到模型在重複編輯後可能會累積忠實度下降。然而，請注意，目前的生產系統可以透過驗證循環、協調和領域專用工具來減輕這些影響。

我們的目標並非反對在專業工作流程中使用 AI 系統，而是要找出目前系統需要進一步研究和工程改進的地方，以幫助它們成為更值得信賴的協作者。這個基準測試旨在作為診斷工具，用於檢視委派模式，而非衡量模型的整體能力、任務成功率或使用者成果。

主要結果

該論文評估了一種我們稱為「委派工作」的特定互動模式——即使用者委託 AI 系統對文件、試算表、程式碼或結構化檔案等重要數位資產進行多步驟修改，且步驟之間人為驗證有限的情況。

我們使用鏈式轉換與反轉任務來評估語義內容在擴展的委派工作流程中是否準確保存。我們的評估採用領域專用語義解析，專注於底層數位資產的實質性變化，而非表面格式或風格差異。因此，我們報告的錯誤對應於底層語義內容的退化，但我們對「損害」的衡量不包括任務完成度或使用者滿意度。

透過這種方法，我們發現目前的前沿模型在長期工作流程中可能會引入稀疏但影響深遠的錯誤，並且這些錯誤可能會在重複互動中累積。在評估的設定中，強大的最先進模型在 20 次委派迭代後，數位資產忠實度平均下降約 19–34%。值得注意的是，Python 工作流程在擴展的委派互動下通常表現出更強的穩健性，平均下降不到 1%。

方法論限制

DELEGATE-52 被有意設計為長期委派執行的壓力測試。該基準測試評估系統在連續的轉換和反轉序列中是否能保持數位資產的完整性。

這項研究特別關注步驟之間人為介入有限的委派執行。它並未試圖衡量實際 AI 部署的全部範圍，其中許多部署涉及實質上更多的監督、驗證和工作流程結構。

該論文還評估了一個簡化的代理框架，具備 Python 執行和檔案操作等工具使用能力。儘管這種設定並未消除觀察到的退化，但不應將其解釋為代表針對特定工作流程或企業領域優化的生產級系統。

影響

我們認為這項工作的主要意義在於，可靠的長期委派仍然是一個重要的開放研究和工程挑戰。

結果表明，單憑強大的短期基準測試表現可能無法保證在擴展工作流程中可靠的委派執行。同時，這些發現不應被解釋為 AI 系統在當今實際工作中缺乏實用價值的證據。

實際上，許多已部署的 AI 系統將模型與專用框架、協調層、檢索系統、驗證程序、記憶機制和人為監督相結合，旨在提高可靠性並提供有用的使用者成果，儘管底層模型存在限制。我們預計模型、工作流程感知訓練、記憶系統和生產級代理框架將持續改進，從而隨著時間的推移進一步減少這些失效模式。