輝達研究：AI 編碼代理讓機器人自主學習靈巧操作

輝達、卡內基美隆大學與加州大學柏克萊分校的研究人員，正利用 AI 編碼代理來教導機器人如何在真實世界中進行靈巧抓取。一支由八台機器人組成的機隊，在複雜任務上達到了高達 99% 的成功率。

對於機器人而言，靈巧的抓取和操作仍然是難以學習的技能。人類必須在每個步驟中參與，包括收集訓練資料、每次嘗試後重置場景，以及調整演算法。這種大量的人工干預減慢了所有進程。ENPIRE 是輝達、卡內基美隆大學和加州大學柏克萊分校的一項研究計畫，旨在透過將這些工作交給 AI 編碼代理來突破這個瓶頸。

其核心概念是一個在真實硬體上運行的回饋迴圈：重置工作空間、執行策略、檢查結果，然後改進下一次嘗試。

ENPIRE 分為兩個階段運行。在第一個階段中，代理會設定一個工作環境，並獲得一些人類回饋。這包括安全邊界、自動重置以及自動成功檢查。代理不再需要人類評估每一次嘗試，而是自行編寫獎勵函數來判斷成功與失敗。它只需要幾分鐘的範例影片，展示成功和失敗的嘗試即可。

例如，在插銷任務中，代理開發了一種結合視覺對齊、夾爪高度和估計力的檢查機制。對於綁束線帶，它結合了兩個攝影機角度以避免誤判，並將反應時間縮短至 150 毫秒以下。這些工具一旦建立，就可以重複使用而無需修改。

在第二階段，代理完全自主運作。它會閱讀研究論文、形成假設，並直接編輯訓練程式碼。它採用行為模仿（策略模仿人類示範）或強化學習（策略透過試錯改進）等方法。代理會根據真實世界的成功訊號，自行選擇合適的方法。

ENPIRE 可擴展至整個機隊：八個雙臂 YAM 機器人工作站，每個都配備自己的硬體、電腦和編碼代理。這些代理同時測試不同的假設，並僅透過軟體標準版本控制工具 Git 共享結果。它們互相採用成功的訓練方法，並自行捨棄不好的想法。一個工作站發現的突破，會迅速傳播到整個機隊。

根據這項研究，這些代理在諸如 Push-T 測試（機器人必須將 T 形積木滑動到目標位置和方向）、將插銷分類到盒子中以及用剪刀剪斷束線帶等嚴苛任務上，達到了高達 99% 的成功率。對於插銷任務，其策略收斂到 100% 的速度比類似的人類參與方法更快。

規模化在時間上也帶來了回報。在 Push-T 測試中，從一個代理增加到八個代理，將完全成功的時間從大約五小時縮短到兩小時。對於插銷任務，則從超過 90 分鐘降至大約 40 分鐘。研究人員測試了三種目前的編碼代理：使用 GPT-5.5 的 Codex、使用 Opus 4.7 的 Claude Code，以及使用 Kimi K2.6 的 Kimi Code。在大多數情況下，Codex 的表現最佳。

然而，真實世界仍然是最嚴峻的考驗。在 Push-T 測試中，所有三個代理都在模擬環境中解決了任務，但在真實環境中卻有三分之二失敗。研究人員將此歸因於機器人動力學、摩擦力和物體移動等不可預測且多變的條件。在 RoboCasa 模擬中，ENPIRE 擊敗了端到端視覺語言動作模型 (GR00T) 和沒有自主研究的基於工具的方法 (CaP-X)。

為了衡量效率，研究人員提出了兩個指標：平均機器人利用率 (MRU) 追蹤機器人實際用於工作的研究時間，而平均 Token 利用率 (MTU) 則計算每分鐘語言模型的使用量。學習到的技能也能轉移：插銷任務的經驗幫助代理使用機器手臂將 GPU 插入主機板。

然而，這項研究也明確指出了其局限性。機器人和運算資源並未被充分利用，因為代理花費大量時間閱讀日誌、編寫程式碼和等待。機隊中的機器人越多，單台機器人的利用率就越低，因為代理需要花更多時間總結彼此的結果。Token 成本的增長也快於性能提升：更大的機隊能更快達成目標，但會消耗更多的運算預算。儘管如此，研究人員仍將 ENPIRE 視為實現機器人在真實世界中自主改進的實用途徑。