輝達、卡內基美隆大學與加州大學柏克萊分校的研究人員,正利用 AI 編碼代理來教導機器人如何在真實世界中進行靈巧抓取。一支由八台機器人組成的機隊,在複雜任務上達到了高達 99% 的成功率。
對於機器人而言,靈巧的抓取和操作仍然是難以學習的技能。人類必須在每個步驟中參與,包括收集訓練資料、每次嘗試後重置場景,以及調整演算法。這種大量的人工干預減慢了所有進程。ENPIRE 是輝達、卡內基美隆大學和加州大學柏克萊分校的一項研究計畫,旨在透過將這些工作交給 AI 編碼代理來突破這個瓶頸。
其核心概念是一個在真實硬體上運行的回饋迴圈:重置工作空間、執行策略、檢查結果,然後改進下一次嘗試。
ENPIRE 分為兩個階段運行。在第一個階段中,代理會設定一個工作環境,並獲得一些人類回饋。這包括安全邊界、自動重置以及自動成功檢查。代理不再需要人類評估每一次嘗試,而是自行編寫獎勵函數來判斷成功與失敗。它只需要幾分鐘的範例影片,展示成功和失敗的嘗試即可。
例如,在插銷任務中,代理開發了一種結合視覺對齊、夾爪高度和估計力的檢查機制。對於綁束線帶,它結合了兩個攝影機角度以避免誤判,並將反應時間縮短至 150 毫秒以下。這些工具一旦建立,就可以重複使用而無需修改。
在第二階段,代理完全自主運作。它會閱讀研究論文、形成假設,並直接編輯訓練程式碼。它採用行為模仿(策略模仿人類示範)或強化學習(策略透過試錯改進)等方法。代理會根據真實世界的成功訊號,自行選擇合適的方法。
ENPIRE 可擴展至整個機隊:八個雙臂 YAM 機器人工作站,每個都配備自己的硬體、電腦和編碼代理。這些代理同時測試不同的假設,並僅透過軟體標準版本控制工具 Git 共享結果。它們互相採用成功的訓練方法,並自行捨棄不好的想法。一個工作站發現的突破,會迅速傳播到整個機隊。
根據這項研究,這些代理在諸如 Push-T 測試(機器人必須將 T 形積木滑動到目標位置和方向)、將插銷分類到盒子中以及用剪刀剪斷束線帶等嚴苛任務上,達到了高達 99% 的成功率。對於插銷任務,其策略收斂到 100% 的速度比類似的人類參與方法更快。
規模化在時間上也帶來了回報。在 Push-T 測試中,從一個代理增加到八個代理,將完全成功的時間從大約五小時縮短到兩小時。對於插銷任務,則從超過 90 分鐘降至大約 40 分鐘。研究人員測試了三種目前的編碼代理:使用 GPT-5.5 的 Codex、使用 Opus 4.7 的 Claude Code,以及使用 Kimi K2.6 的 Kimi Code。在大多數情況下,Codex 的表現最佳。
然而,真實世界仍然是最嚴峻的考驗。在 Push-T 測試中,所有三個代理都在模擬環境中解決了任務,但在真實環境中卻有三分之二失敗。研究人員將此歸因於機器人動力學、摩擦力和物體移動等不可預測且多變的條件。在 RoboCasa 模擬中,ENPIRE 擊敗了端到端視覺語言動作模型 (GR00T) 和沒有自主研究的基於工具的方法 (CaP-X)。
為了衡量效率,研究人員提出了兩個指標:平均機器人利用率 (MRU) 追蹤機器人實際用於工作的研究時間,而平均 Token 利用率 (MTU) 則計算每分鐘語言模型的使用量。學習到的技能也能轉移:插銷任務的經驗幫助代理使用機器手臂將 GPU 插入主機板。
然而,這項研究也明確指出了其局限性。機器人和運算資源並未被充分利用,因為代理花費大量時間閱讀日誌、編寫程式碼和等待。機隊中的機器人越多,單台機器人的利用率就越低,因為代理需要花更多時間總結彼此的結果。Token 成本的增長也快於性能提升:更大的機隊能更快達成目標,但會消耗更多的運算預算。儘管如此,研究人員仍將 ENPIRE 視為實現機器人在真實世界中自主改進的實用途徑。
