一個機器人夾爪之所以有用,不在於它能抓取單一物體,而在於它能用從未拿過的工具,連續抓取下一個又一個物體。一個自駕車系統之所以安全,不僅在於它能理解情境,更在於它能在車載硬體上夠快地完成推理。一個虛擬代理之所以有能力,在於它在面對真實世界之前,能接觸到盡可能多的不同環境。
在今年的電腦視覺與模式識別會議 (CVPR) 上,NVIDIA 研究團隊發表了三篇論文,分別解決了這些挑戰,並共享一個共同主題:大規模訓練能創造出可泛化至多樣化應用的系統。
這三篇論文涵蓋了實體 AI 研究中的不同挑戰:
GraspGen-X 是首個用於零樣本抓取的基礎模型,透過數十億次模擬抓取進行訓練,使其能與任何展示給它的夾爪協同工作。
LCDrive 引入了一個模型,用緊湊的潛在表徵取代了昂貴的基於文本的推理,讓自駕車能在嵌入式硬體上更快地思考。
NitroGen 是一個通用遊戲 AI 基礎模型,它利用 NVIDIA Isaac GR00T 機器人基礎模型架構,協助在虛擬環境中對具身代理進行數萬小時的互動訓練。
NVIDIA 也在 CVPR 上發表了新的實體 AI 代理技能,幫助研究人員和開發者加速自駕車、機器人及視覺 AI 系統的開發。
首個用於抓取的基礎模型
大多數用於機器人抓取的 AI 系統都是專用型。一個為兩指夾爪訓練的視覺-語言-動作策略,只會學習如何用這兩根手指抓取。同樣地,一個用於靈巧抓取的策略,也只適用於其訓練所用的客製化多指夾爪。對於每一個新的具身形態,這個過程通常需要重複進行——需要新的訓練資料、微調和驗證。這種限制意味著大多數機器人公司會選擇一種夾爪,為其訓練,並堅持使用它。
GraspGen-X 是首個為消除此瓶頸而建構的抓取基礎模型。
就像一個大型語言模型能將其對語言的理解應用於新任務而無需重新訓練一樣,GraspGen-X 能將其對幾何和接觸的理解應用於它遇到的任何機器人夾爪。給定一個新夾爪的幾何形狀和一個它從未見過的未知物體,該模型會生成可靠的抓取姿態建議,使機器人能夠抓取該物體。
為了實現這一目標,研究人員需要一個在現實世界中無法大規模收集的資料集。他們生成了 20 億次模擬抓取,涵蓋數千種物體形狀和合成夾爪配置,範圍廣泛,足以應對部署機器人可能遇到的各種形態。
對於機器人開發者而言,這個基礎模型消除了每個夾爪所需的訓練週期,並且可以開箱即用於多種常用夾爪。GraspGenX 可以與 curoboV2(一個新的 CUDA 加速運動規劃函式庫)結合使用,以在未知環境中實現這些抓取姿態。
基於 GraspGen 的研究基礎,另一篇在 ICRA 2026 上發表的論文 Grasp-MPC,則推進了管線中的下一步:從抓取生成轉向閉迴路抓取執行。
教導自駕車更快思考
近年來,研究人員發現,讓 AI 進行推理——在做出決定之前生成中間思考步驟——能可靠地提高其決策能力。
對於自駕車而言,挑戰在於如何在實際車輛的硬體上進行這種推理。基於文本的思維鏈推理會生成文字,而每個文字都是一個權杖,需要時間來生成。在車載處理器上,權杖數量是系統響應速度的一個實際限制。
LCDrive 透過用壓縮的潛在表徵取代文字來解決這個問題。
該系統不是生成人類可讀的推理步驟,而是在緊湊的潛在空間中思考——這些狀態捕捉的是空間資訊,而不是產生文本。該架構在兩種思考方式之間交替:提出候選動作,然後預測如果採取這些動作,世界會是什麼樣子。
它利用預測的世界狀態來完善其下一步。這與推理迴圈相同——只是以比自然語言更具計算效率的形式呈現。
結果是:與基於文本的推理相比,輸出軌跡品質相當,但使用的權杖大約減少了一半。
該模型建立在 NVIDIA Alpamayo 上,並使用來自現有車輛資料的監督進行訓練。
在虛擬世界中訓練具身代理
Isaac GR00T——NVIDIA 用於人形機器人的開源基礎模型——建立在一個簡單的原則上:讓模型接觸足夠多樣化的情境,它就能泛化到它從未見過的情境。
NitroGen 將這一原則擴展到虛擬環境,利用 GR00T 架構在廣泛的虛擬世界中訓練具身代理的基礎模型。
電玩遊戲提供了一些難以從頭開始建構的東西:結構化、多樣化的世界,具有明確的目標和明確的成功條件。它們是高品質的訓練環境,可大規模取得。
NitroGen 將它們視為訓練場,用於訓練最終將處理新穎真實或模擬世界情境的代理,例如為機器人提供動力,使其根據「把這些東西收進儲藏室」等廣泛指令協助家務。
透過基於 GR00T 的模型,在超過 1,000 款遊戲和 40,000 小時的互動中進行訓練,所產生的代理學會了在不同環境中泛化。該模型在動作角色扮演遊戲、平台遊戲、Roguelike 遊戲和開放世界遊戲等多種類型中進行了評估,展示了涵蓋戰鬥、導航和探索的遊戲行為。
同樣的技術最終可能幫助在遊戲內部實現更具適應性的非玩家角色 (NPC)、AI 夥伴和遊戲系統,以及更廣泛的複雜遊戲環境測試。
在低資料條件下——當代理只見過少量新環境範例時——從 NitroGen 開始能讓代理獲得巨大的領先優勢,相較於先前最先進的方法,性能提升高達 52%。
該模型是開源的,可在 GitHub 和 Hugging Face 上取得。
了解更多關於 NVIDIA 在 CVPR 的資訊,並探索 NVIDIA Research 在實體 AI、電腦視覺和自主系統方面的工作。開始使用 Isaac GR00T 和 NVIDIA 機器人工具。
