MolmoMotion：語言引導 3D 運動預測，賦能機器人與影片生成

機器在感知運動方面已表現出色。現代模型能以極高準確度追蹤影片中物體和點的移動。然而，感知本質上是回溯性的，它解釋的是已經發生的運動。我們希望建構的許多系統和應用程式，反而需要向前看。例如，機器人要抓取杯子，必須在接觸前預測杯子如何移動；影片生成器若要產生符合物理定律的畫面，就必須知道接下來會發生什麼真實運動。預測運動比觀察運動更困難，但在許多情境下也更有用。

這個想法正是 MolmoMotion 的動機，這是我們今天發布的一個全新運動預測模型。MolmoMotion 接收一個影片畫面、物體上標記的 3D 點，以及描述預期動作的文字指令（例如：「移動並旋轉桌上裝有水果的木碗」），然後預測這些點在未來幾秒內於 3D 空間中的移動軌跡，其性能顯著優於現有的預測方法。

MolmoMotion 接收 RGB 影像、物體上的一組查詢點和動作描述，預測物體未來的 3D 點軌跡。這些預測的軌跡隨後可用於機器人規劃和基於軌跡的影片生成等下游應用。除了模型之外，我們還發布了 MolmoMotion-1M，這是目前最大的 3D 點軌跡與動作描述配對資料集，包含來自 116 萬個影片的數據。

我們也同步推出 PointMotionBench，這是一個經過人工驗證的基準測試，旨在衡量以物體為中心的 3D 運動預測準確性，其中包含 2,700 個影片片段。

我們發現 MolmoMotion 這類運動預測器在從機器人規劃到可控影片生成等多種下游任務中都非常有用。我們將模型權重、MolmoMotion-1M 資料集和 PointMotionBench 基準測試開放給社群，供大家研究、改進和客製化。

MolmoMotion 以一種精確且高效的方式來表示運動：將其視為物體附著在世界空間中的 3D 點，這種方式能在不需渲染完整影片的情況下捕捉運動。我們選擇這種表示方式，是因為我們需要一種具有三個特性的通用運動表示法：類別無關（不綁定於人體、手部、剛體或其他任何固定類別的模板）、視角穩定（相同的物理運動在不同攝影機和視角下應保持一致的表示）、以及可直接供需要推理物理運動的下游系統使用。

在我們考慮的各種表示法中，只有 3D 點滿足這三個特性。稀疏的表面點集可以描述剛性、關節式以及（在一定限制內）可變形的運動，而無需假設被移動物體的類型。由於這些點存在於共享的世界座標系中，它們的軌跡在攝影機移動和視角變化時仍保持穩定。此外，由於它們是 3D 空間中緊湊且明確的軌跡，因此可以直接傳遞給機器人策略或影片生成模型等系統。

為了預測這些軌跡，MolmoMotion 使用 Molmo 2 作為其骨幹模型，使其能夠將語言指令與影像中的物體和點連結起來。給定一段簡短的影片歷史、動作描述，以及一組帶有初始 3D 位置的查詢點，模型首先識別出所指的物體、查詢點以及指令所描述的運動。然後，它會預測每個點未來的 3D 軌跡。

我們訓練了 MolmoMotion 的兩種變體：自迴歸變體（MolmoMotion-AR）逐步預測未來座標。它將 3D 座標表示為結構化文本，遵循 VLM 中使用的座標式預測方法，並按時間順序寫出未來軌跡。由於每個新座標都以已生成的軌跡為條件，這有助於產生平滑的展開，並在未來路徑明確時提供最強的準確性。

流匹配變體（MolmoMotion-FM）則透過將雜訊轉換為運動，在連續 3D 空間中預測軌跡，這使其更適合在指令允許多種合理未來時表示不確定性。

為了訓練 MolmoMotion，我們需要尚不存在的數據：大規模影片，其中包含與特定物體相關聯的 3D 點軌跡，並配對動作描述。現有的 3D 追蹤資料集規模小且領域受限，而網路影片雖然擁有 MolmoMotion 預測器所需的所有規模和多樣性，卻不包含 3D 註釋。因此，我們建立了一個自動化流程，從非受限影片中提取以物體為基礎的 3D 軌跡。

給定輸入影片及其動作描述，我們的註釋流程會產生以物體為基礎的 3D 點軌跡，並以公制世界座標表示。具挑戰性的是，來自非受限影片的原始軌跡通常帶有雜訊——深度和追蹤錯誤會導致點抖動和漂移——而且物體在影片大部分時間可能保持靜止。為了提高數據的可靠性，我們濾除與物體其餘部分不連貫移動的點，平滑剩餘的軌跡，並將每個片段裁剪到物體實際移動的時間窗口。

大規模運行我們的流程產生了 MolmoMotion-1M——據我們所知，這是迄今為止組裝的最大規模的動作描述、以物體為基礎的 3D 點軌跡語料庫，涵蓋 736 種運動類型和 5,600 個不同的物體。

為了評估 MolmoMotion 的預測性能，我們還建立了 PointMotionBench，這是一個經過人工驗證的獨立 3D 軌跡基準測試。它涵蓋 2,700 個影片片段，包含 111 個物體類別和 61 種運動類型，包括室內操作、以自我為中心的手物體互動以及戶外動態場景。

對於每個片段，模型會獲得當前觀察、物體查詢點和動作描述，並根據其預測的 3D 點軌跡與物體實際未來運動的匹配準確度進行評估。這為我們提供了一個直接量化 3D 運動預測的測試，而不是僅僅依賴於生成的點軌跡是否看起來合理。

我們透過三種方式評估 MolmoMotion。首先，我們測試它是否比現有方法更準確地預測未來 3D 運動。其次，我們測試它所學到的運動知識是否有助於機器人執行操作任務。第三，我們測試相同的知識是否能幫助引導生成影片中的運動。

在 PointMotionBench 上，MolmoMotion 在各種物體、場景和動作中，表現優於我們測試過的所有現有 3D 運動預測方法——包括像素空間影片生成器、參數化 3D 方法和簡單的恆定速度基準線。MolmoMotion 可以預測多種物體和場景運動，例如除塵滾筒如何在布料上來回移動、碗如何在桌上滑動和旋轉、紅鶴如何一邊走路一邊將喙浸入水中，或者汽車如何沿著道路轉彎。

在每個案例中，預測路徑都遵循 MolmoMotion 接收到的指令，並與我們基準測試中的真實運動保持極為接近。

MolmoMotion 所學到的運動知識應該能夠從一個情境轉移到另一個情境——用人手拿起杯子和用機器人夾具拿起杯子是截然不同的動作，但杯子本身在 3D 空間中遵循的路徑是相似的。這使得 MolmoMotion 非常適合機器人學，因為機器人必須在移動物體之前規劃物體應如何移動。

在 DROID（一個大型真實世界機器人操作影片開放資料集）上進行微調後，我們發現 MolmoMotion 能夠在各種機器人規劃情境中，針對不同的物體、攝影機視角、場景和任務，預測出合理的物體路徑。在模擬中，基於 MolmoMotion 建構的控制策略在抓取放置任務中成功率達到 76.3%，而基於 Molmo 2 的相同策略僅為 56.0%——而且學習速度更快，在 1 萬個訓練步驟後達到 51%，而 Molmo 2 版本最高僅為 19%。

在真實機器人上（經過微調後），MolmoMotion 僅需約 2 千個步驟就能達到 Molmo 2 基準線在 1 萬 2 千個訓練步驟後所實現的相同測試 L2 誤差。

MolmoMotion 預測的路徑也能引導影片生成。與其讓影像轉影片模型單純從文字指令猜測運動，不如輸入 MolmoMotion 的預測結果。這樣生成的影片能更緊密地遵循所要求的動作，特別是對於提示詞只能模糊描述的微小而精確的動作。

數據指標也證實了這一點。MolmoMotion 用於引導影片生成器時，在我們衡量的五項運動相關指標上，都提升了基礎模型的運動品質，並在其中四項指標上超越了規模更大的影像轉影片模型。

MolmoMotion 是一個功能強大的模型，但仍有一些限制需要注意。它在訓練期間每個物體使用八個查詢點——這足以預測有用的軌跡，但不足以密集表示表面幾何形狀。這限制了模型處理複雜可變形運動的能力。

我們認為預測——即在物體移動之前預期它們將如何移動——對於機器智慧而言，其重要性不亞於感知已經存在的東西。MolmoMotion 是朝這個方向邁出的一步，它實現了 3D 運動預測。