NVIDIA XR AI 現已推出公開測試版,為開發者提供了一個框架,用於為 AR 眼鏡和 XR 裝置建構多模態 AI 代理。
人工智慧正從聊天機器人和協作工具,走向實體世界。在實驗室、工廠和醫院等場域,新一代的 AI 代理正開始與人類協同工作,協助人們理解環境、獲取知識並即時採取行動。
然而,建構結合模型、技能、工具和代理執行環境的代理系統,以協助人們執行實際操作任務,是一項艱鉅的挑戰。為了在動態的真實世界環境中有效運作,這些代理不僅僅需要生成回應。
如同人類工作者,它們需要知識、工具和專業技能,透過影像、音訊和感測器資料來感知並理解世界。這些代理必須能夠解讀快速變化的狀況和空間情境,從企業系統中檢索資訊,推斷出最佳的下一步行動,並利用軟體工具完成任務。所有這些都必須以低延遲的方式進行,並在不分散使用者注意力的情況下提供支援。
NVIDIA XR AI 是一個開發者函式庫,旨在協助開發者建構這些代理應用程式。透過將 AR 眼鏡和 XR 裝置的輸入與 AI 模型、企業資料、工具和加速運算連結起來,NVIDIA XR AI 讓代理能夠在工作流程中感知、推斷和行動。
它為開發者建構或連結企業 XR 應用程式的技能和工具提供了基礎,並簡化了多模態感知、企業資料檢索、推論模型和代理協調的整合。這些功能共同使得建構空間感知、多模態 AI 代理變得更加容易,能在 AR 和 XR 體驗中提供低延遲、情境感知的輔助。
該平台匯集了四個核心功能:
從 AR 和 XR 裝置擷取真實世界訊號,包括影像、音訊、深度、姿態和感測器資料。
將代理連接到專用工具和服務,包括用於視覺 AI 和影像理解的 NVIDIA Metropolis 和 NVIDIA Metropolis for video search and summarization (VSS),以及用於企業知識檢索和檢索增強生成 (RAG) 的 NVIDIA NeMo Retriever。
支援廣泛的 AI 模型生態系統,包括 NVIDIA Nemotron 推論模型、NVIDIA Cosmos Reason 和其他相容的基礎模型。
整合代理協調和加速執行服務,協助開發者從原型開發邁向生產部署。
NVIDIA NeMo Agent Toolkit 實現了工具使用、推論工作流程和多代理協調,而 NVIDIA 加速運算平台 — 包括 NVIDIA DGX Spark、NVIDIA DGX Station 和 NVIDIA RTX PRO 系統 — 則提供了在雲端、資料中心和邊緣環境中執行推論的基礎設施。
總體而言,這些功能使 AI 代理能夠理解周遭環境、存取企業知識、推斷複雜任務並即時提供情境式輔助。
**各行各業應用 NVIDIA XR AI**
在製造、科學、醫療、設計和沉浸式學習等領域,開發者和企業已經開始利用 NVIDIA XR AI,將 AI 代理嵌入到實際工作場景中。
西門子 (Siemens) 正在研究如何將 NVIDIA XR AI 和 NVIDIA DGX Spark 應用於工廠,協助工程師查找維護資訊、排除故障、驗證工作並記錄現場情況。
透過這套系統,工程師佩戴輕量級眼鏡即可向 AI 代理詢問可程式邏輯控制器 (PLC) 的問題,並獲得即時指導,進而連接工業系統、數位分身和自動化工作流程。
在研究實驗室中,為科學研究建構 AI 系統的 AutoBio 公司 Rana,正在 NVIDIA XR AI 上推出其 LabOS 系統,將空間智慧直接導入科學工作流程。LabOS 為複雜的實驗工作流程提供即時、免手持的指導,目前已應用於史丹佛大學醫學院 Cong 實驗室和普林斯頓大學 Wang 實驗室的幹細胞療法和基因編輯研究。
LabOS 協同科學家基於 XR AI 架構建構,能在實驗室環境中感知、理解和行動,協助研究人員識別正確的樣本和 CRISPR 基因編輯器,指導每個實驗步驟,並在人類、機器人和 AI 系統協同工作時,捕捉結構化、可重現的記錄。
透過 AR 眼鏡提供並由 NVIDIA GPU 驅動的實體感知 AI 代理,成為 AI 輔助科學的下一代介面 — 讓研究人員專注於複雜的實驗程序,同時即時接收情境式指導。
LabOS 與 Meta、Rokid 和 VITURE 的智慧眼鏡相容。
VITURE 將 NVIDIA XR AI 整合到其穿戴式介面中,讓工作人員能以免手持的方式,在工作現場找到正確的情境並引導下一步操作。這個 XR AI 基礎自然地從實驗室延伸到診所和工業環境。
在手術室中,匹茲堡大學醫學中心 (University of Pittsburgh Medical Center) 的 Surreality Lab 展示了 NVIDIA XR AI 如何為手術團隊提供情境感知輔助。該管線在 NVIDIA XR AI 和 NVIDIA DGX Station 上運行,旨在協助團隊查找資訊並引導注意力,同時不為外科醫生增加視覺混亂。
透過理解哪些資訊不應遮擋外科醫生的視線,該系統可以在不影響醫生專注於病患和手術的情況下,顯示有用的情境資訊。
在汽車設計領域,Innoactive 展示了企業如何在沉浸式工作流程中捕捉相關資訊和資料,以支援設計決策。
這項體驗由 NVIDIA DGX Spark 系統驅動,協助團隊保留設計審查、產品展示間和數位分身的情境,使空間工作能夠從一次性會話轉變為可重複的企業流程。
曾多次榮獲奧斯卡和艾美獎的敘事與沉浸式媒體工作室 Atlantic Studios,正利用 NVIDIA XR AI 讓觀眾探索鐵達尼號現今沉船的沉浸式掃描。
使用者可以透過語音提示來尋找興趣點,並引導探索這個歷史遺跡 — 將複雜的水下模型轉化為互動式的空間故事,即時回答問題、呈現情境並協助使用者學習。
隨著 AI 代理獲得感知實體世界、使用工具、存取企業知識並與人類協作的能力,它們正成為一種新型態的數位工作者。NVIDIA XR AI 提供了開發者所需的函式庫和加速運算基礎,以便為實驗室、工廠、醫院和沉浸式環境建構這些代理,將代理式 AI 直接帶入工作流程。
了解更多關於 NVIDIA XR AI 並存取開發者資源。
