史上首次,一顆地球觀測衛星在沒有地面分析師協助下,成功自主找到其搜尋的目標。這項於四月達成的里程碑,標誌著視覺語言模型(VLM)首次在軌道上應用,並預示著 AI 將如何從根本上改變太空感測器的能力及其價值。

通常,衛星會將大量數據下載至地球上的分析師,由他們利用機器學習演算法或肉眼來判斷情況。然而,在太空基礎設施公司 Loft Orbital 建造的 Yam-9 衛星上,一套由 NASA 噴射推進實驗室(JPL)開發的軟體,能夠根據自然語言查詢自主識別感興趣的區域。

此次示範所使用的視覺語言模型(VLM)是 Google DeepMind 的 Gemma 3,專為邊緣應用設計,意即它能在遠離資料中心的有限硬體上運行。VLM 結合了大型語言模型的語境理解能力與圖像分析能力;例如,研究人員要求該模型分類自然環境與人類發展交會處的感測器數據,或識別鐵路樞紐周圍的基礎設施,而它都成功完成了。

這項示範之所以意義重大,有兩個原因。短期而言,它能透過在軌道上進行初步數據分類,使太空感測器更具實用性,從而減少分析師目前必須處理的大量原始數據。長期來看,這也證明了在太空運行大規模 AI 基礎設施的可行性。

Loft 的 AI 主管 Paul Lasserre 向 TechCrunch 表示:「這為太空中的全天候巡邏層打開了大門。」他補充說:「如果你擁有 VLM,就能建立邏輯,例如『幫我監控這條邊界,並在發現可疑情況時通知我』,並與衛星進行雙向互動。」

Loft 的太空船設計為第三方客戶的平台,其商業模式更接近「基礎設施即服務」,而非傳統的衛星製造。最近的一項交易是為 EarthDaily 建造、發射並營運六顆新衛星,這些衛星將分析並銷售船上收集的數據。Yam-9 於 2025 年秋季發射,作為該公司軌道 AI 專案的探路者,並搭載了 Nvidia Jetson Orrin AGX GPU,這是太空運算領域領先的晶片之一。

NASA JPL AI 小組的技術負責人 Juan Delfa Victoria 領導開發了 NAVI-Orbital,這是一個有效地整合 Gemma 3 VLM 的軟體套件。儘管 Gemma 3 是現成的模型,軟體工程師仍需精簡該軟體套件,以減少所需的函式庫和記憶體。

儘管這是 VLM 首次在軌道上應用的報導,我們預計其他公司也將效仿。Planet Labs 的衛星也搭載了 Jetson Orin 處理器;目前,他們將其用於更簡單的物件偵測任務,但發言人表示,其他 AI 應用(包括 VLM)的研究正在進行中。

Kepler Communications 營運著太空最大的 GPU 群組,但由於與合作夥伴簽訂了保密協議,他們拒絕透露是否已在太空部署 VLM。不過,該公司指出,自今年一月這些太空船發射以來,其運算環境已有多個「未公開的使用案例」。

Lasserre 表示:「既然我們已經證明了這個概念,這就是未來的發展方向。」目標是建立衛星群,以確保對地球上任何地點的即時覆蓋,他估計這將需要 50 到 100 顆像 Yam-9 這樣的衛星。(Loft 目前在軌道上營運 12 顆太空船。)

在軌道上部署這些小型模型所學到的經驗,將為公司如何在太空部署更大規模的運算基礎設施提供參考,尤其是在電力和記憶體管理這些看似平凡卻至關重要的領域。

這些技術也可能為新的科學工具鋪路。NAVI-Space 的構想始於 JPL 研究員 Taran Cyriac John,他當時正在思考為探索月球或火星的太空人開發數位助理。

Delfa Victoria 表示:「我們在想,太空人穿著加壓太空服,他們無法敲擊鍵盤,而且他們想做的任何事情都很複雜。」他接著說:「那麼,我們何不提供一個像電玩遊戲和電影中那種互動式 AI 助理呢?」

只是別把它叫做 HAL 9000。