代理(agents)在處理複雜的現實世界任務中變得越來越關鍵,從一般的網路導航到協助處理龐大的軟體工程程式碼庫。然而,當這些代理轉變為現實世界中持續運作、長期執行的角色時,它們面臨一個關鍵限制:在部署後,它們難以分析並從成功與失敗的經驗中學習。 代理在沒有記憶機制的情況下處理每個新任務時,會重複犯相同的策略性錯誤,並丟棄寶貴的見解。為了解決這個問題,業界引入了各種形式的代理記憶,用於儲存過去互動的資訊以供重複使用。然而,現有方法通常側重於儲存每次行動的詳盡記錄(例如 Synapse 中使用的軌跡記憶),或者只記錄從成功嘗試中總結的工作流程(如 Agent Workflow Memory)。這些方法有兩個根本性缺點:首先,它們記錄的是詳細的行動而非戰術性的預判,因此未能提煉出更高層次、可轉移的推理模式;其次,它們過度強調成功經驗,卻錯失了主要的學習來源——自身的失敗。 為了彌補這個差距,我們在 ICLR 論文《ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory》中,介紹了一個創新的代理記憶框架(GitHub 連結),它能從成功與失敗的經驗中提煉出有用的見解。