研究
GRASP:強化世界模型長程規劃的穩定性與效率

摘要
GRASP 是一種新型的基於梯度的規劃器,專為學習型世界模型設計,旨在解決長程規劃的脆弱性問題。它透過將軌跡提升至虛擬狀態以實現時間上的平行優化、引入隨機性進行探索,並重塑梯度以避免高維視覺模型中易碎的狀態輸入梯度,從而大幅提升規劃的實用性與穩健性。
GRASP 是一種新型的基於梯度的規劃器,專為學習型動態模型(即「世界模型」)設計,它透過以下三點使長程規劃變得實用:(1) 將軌跡提升至虛擬狀態,讓優化可在時間軸上平行進行;(2) 直接在狀態迭代中加入隨機性以利探索;以及 (3) 重塑梯度,使動作獲得清晰訊號,同時避免透過高維度視覺模型產生脆弱的「狀態輸入」梯度。大型的學習型世界模型正變得越來越強大。它們能夠在高維度視覺空間中預測長序列的未來觀測結果,並以幾年前難以想像的方式跨任務泛化。隨著這些模型的規模擴大,它們開始更像是通用型模擬器,而非僅限於特定任務的預測器。然而,擁有強大的預測模型,並不等同於能夠有效地將其用於控制、學習或規劃。實際上,使用現代世界模型進行長程規劃仍然相當脆弱:優化過程容易出現病態條件,非貪婪結構會產生不良的局部最小值,而高維度潛在空間則引入了細微的失效模式。在這篇部落格文章中,我將描述促成此專案的問題,以及我們解決這些問題的方法:為何使用現代世界模型進行規劃會出乎意料地脆弱,為何長程規劃是真正的壓力測試,以及我們做了哪些改變來使基於梯度的規劃更加穩健。這篇部落格文章討論了與 Mike Rabbat、Aditi Krishnapriyan、Yann LeCun 和 Amir Bar(* 表示共同指導)合作完成的工作,我們在此提出了 GRASP。## 什麼是世界模型?如今,「世界模型」這個術語的涵義相當廣泛,根據上下文,它可能指明確的動態模型,或是生成模型所依賴的某種隱含、可靠的內部狀態(例如,當大型語言模型(LLM)生成西洋棋步時,是否存在某種內部棋盤表示)。我們在下方給出一個寬鬆的工作定義。假設您執行動作 a t∈A 並觀察到狀態 s t∈S(圖像、潛在向量、本體感覺)。世界模型 是一個學習型模型,它根據當前狀態和一系列未來動作,預測接下來會發生什麼。形式上,它定義了一個關於觀測狀態序列 s t−h:t 和當前動作 a t 的預測分佈:P θ(s t+1∣s t−h:t,a t),該分佈近似於環境的真實條件 P(s t+1∣s t−h:t,a t)。為了這篇部落格文章的簡潔性,我們將假設一個馬可夫模型 P(s t+1∣s t−h:t,a t)(此處的所有結果都可以推廣到更一般的情況),當模型是確定性時,它簡化為一個狀態映射:s t+1=F θ(s t,a t)。實際上,狀態 s t 通常是一個學習到的潛在表徵(例如,從像素編碼而來),因此模型在一個(理論上)緊湊、可微分的空間中運作。關鍵點在於,世界模型為您提供了一個可微分的模擬器;您可以在假設的動作序列下向前推進它,並透過預測進行反向傳播。## 規劃:透過模型優化來選擇動作給定起始狀態 s 0 和目標 g,最簡單的規劃器透過模型展開並最小化終端誤差來選擇動作序列 a=(a 0,…,a T−1):min a∥s T(a)−g∥2 2,其中 s T(a)=F T θ(s 0,a)。這裡我們使用 F T 作為透過世界模型進行完整展開的簡寫(對模型參數 θ 的依賴是隱含的):F T θ(s 0,a)=F θ(F θ(⋯F θ(s 0,a 0),⋯,a T−2),a T−1)。在短程和低維度系統中,這種方法可以運作得相當好。但隨著時間範圍的增長以及模型變得更大、更具表達力,其弱點會被放大。那麼,為什麼這種方法無法在大規模下直接應用呢?## 為何長程規劃很困難(即使一切都可微分)對於更通用的世界模型,存在兩個獨立的痛點,此外還有第三個痛點是學習型、基於深度學習的模型所特有的。### 1) 長程展開會產生深度、病態條件的計算圖熟悉時間反向傳播(BPTT)的人可能會注意到,我們正在對一個重複應用於自身的模型進行微分,這將導致梯度爆炸/消失問題。具體來說,如果我們對較早的動作(例如 a 0)取導數(請注意,我們正在對向量值函數進行微分,產生我們用 D x(⋯) 表示的雅可比矩陣):D a 0 F T θ(s 0,a)=(∏t=1 T D s F θ(s t,a t))D a 0 F θ(s 0,a 0)。我們看到雅可比矩陣的條件數隨時間 T 呈指數級增長:σ max/min(D a 0 F T θ)∼σ max/min(D s F θ)T−1,導致梯度爆炸或消失。### 2) 損失函數地形非貪婪且充滿陷阱在短程規劃中,每一步都直接朝目標前進的貪婪解通常就足夠了。如果只需要規劃幾步,最佳軌跡通常不會偏離「朝向 g」太多。然而,隨著時間範圍的增長,會發生兩件事。首先,更長的任務更有可能需要非貪婪行為:繞過牆壁、推動前重新定位、後退以選擇更好的路徑。而且隨著時間範圍的增長,通常需要更多這類非貪婪步驟。其次,優化空間本身會隨時間範圍擴大:d i m(A×⋯×A)=T d i m(A),進一步擴大了優化問題的局部最小值空間。圖 3:損失函數地形。沿著最佳路徑到目標的距離是非單調的,導致的損失函數地形可能崎嶇不平。## 長程規劃的解決方案:提升動態約束假設我們將動態約束 s t+1=F θ(s t,a t) 視為一個軟約束,並轉而對動作 (a 0,…,a T−1) 和狀態 (s 0,…,s T) 優化以下懲罰函數:min s,a L(s,a)=∑t=0 T−1∥∥F θ(s t,a t)−s t+1∥∥2 2,其中 s 0 固定且 s T=g。這在規劃/機器人學文獻中也稱為搭配法(collocation)。請注意,這種提升(lifted)的公式與原始的展開目標函數共享相同的全域最小值(當軌跡在動態上可行時,兩者都恰好為零)。但優化地形截然不同,我們立即獲得兩個好處:每個世界模型評估 F θ(s t,a t) 僅依賴於局部變數,因此所有 T 項都可以在時間上平行計算,從而為更長的時間範圍帶來巨大的加速;您不再需要透過單一的深度 T 步組合進行反向傳播以獲得學習訊號,因為先前雅可比矩陣的乘積現在分解為一個和,例如:D a 0 L=2(F θ(s 0,a 0)−s 1)。能夠直接優化狀態也有助於探索,因為我們可以暫時在非物理域中導航以找到最佳規劃:圖 4:BallNav 中的搭配法規劃。基於搭配法的規劃允許我們直接擾動狀態並更有效地探索中間點。然而,天下沒有白吃的午餐。確實,特別是對於基於深度學習的世界模型,存在一個關鍵問題,使得上述優化在實踐中相當困難。## 深度學習世界模型的一個問題:狀態輸入梯度的敏感性本節的懶人包是:直接透過基於深度學習的 F θ 優化狀態極其脆弱,類似於對抗性魯棒性問題。即使您在較低維度的狀態空間中訓練世界模型,世界模型的訓練過程也會使未見過的狀態地形變得非常尖銳,無論是未見過的狀態本身,還是僅僅是資料流形的正交方向。### 對抗性魯棒性與「凹陷流形」模型對抗性魯棒性最初研究分類模型 f θ:R w×h×c→R K,並指出透過從基礎圖像 x(不屬於類別 k)沿著特定 logit ∇f k θ 的梯度方向移動,您不需要沿著 x′=x+ϵ∇f k θ 移動很遠,就能讓 f θ 將 x′ 分類為 k(Szegedy et al., 2014;Goodfellow et al., 2015):圖 5:對抗性範例。描繪了 (Goodfellow et al., 2015) 中的經典範例。後來的研究為此現象描繪了幾何圖景:對於接近低維流形 M 的資料,訓練過程控制切線方向的行為,但不會規範正交方向的行為,從而導致敏感的行為(Stutz et al., 2019)。另一種說法是:當僅考慮資料流形 M 的切線方向時,f θ 具有合理的 Lipschitz 常數,但在正交方向上可以具有非常高的 Lipschitz 常數。事實上,模型在這些正交方向上更尖銳通常是有益的,這樣它才能更精確地擬合更複雜的函數。圖 6:對抗性擾動離開資料流形。因此,即使對於單一給定模型,這類對抗性範例也極為常見。此外,這不僅僅是電腦視覺現象;對抗性範例也出現在大型語言模型(LLM)(Wallace et al., 2019)和強化學習(RL)(Gleave et al., 2019)中。雖然存在訓練出更具對抗性魯棒性模型的方法,但模型性能與對抗性魯棒性之間存在已知的權衡(Tsipras et al., 2019):特別是在存在許多弱相關變數的情況下,模型必須更尖銳才能達到更高的性能。事實上,大多數現代訓練演算法,無論是在電腦視覺還是大型語言模型中,都沒有消除對抗性魯棒性。因此,至少在深度學習出現重大變革之前,這是我們必須面對的問題。### 為何對抗性魯棒性是世界模型規劃的問題?考慮我們在提升狀態方法中優化的動態損失的一個單一組成部分:min s t,a t,s t+1∥F θ(s t,a t)−s t+1∥2 2。讓我們進一步只關注基礎狀態:min s t∥F θ(s t,a t)−s t+1∥2 2。由於世界模型通常是在狀態/動作軌跡 (s 1,a 1,s 2,a 2,…) 上訓練的,F θ 的狀態資料流形的維度受動作空間限制:d i m(M s)≤d i m(A)+1+d i m(R),其中 R 是一些可選的增強空間(例如平移/旋轉)。因此,我們通常可以預期 d i m(M s) 會遠低於 d i m(S),因此:很容易找到對抗性範例,將任何狀態「駭入」到任何其他期望的狀態。因此,動態優化 ∑t=0 T−1∥∥F θ(s t,a t)−s t+1∥∥2 2 感覺異常「黏滯」,因為基礎點 s t 可以輕易地欺騙 F θ,讓它認為已經達成了局部目標。[1](http://bair.berkeley.edu/blog/2026/04/20/grasp/#fn1)圖 7:對抗性世界模型範例。1. 這個對抗性魯棒性問題,雖然對提升狀態(lifted-state)方法尤其不利,但並非其獨有。即使對於透過完整展開映射 F T 進行優化的序列優化方法,也可能進入未見過的狀態,在這些狀態下,很容易將正交分量饋入 D s F θ 的敏感正交分量。動作雅可比矩陣的鏈式法則展開為 (∏t=1 T D s F θ(s t,a t))D a 0 F θ(s 0,a 0)。試想如果乘積的任何階段包含任何與資料流形正交的分量會發生什麼。[↩](http://bair.berkeley.edu/blog/2026/04/20/grasp/#ref1)### 我們的解決方案。這就是我們新的規劃器...
標籤
世界模型長程規劃梯度優化對抗性魯棒性深度學習
以上為 AI 自動翻譯導讀。原文版權歸 BAIR Blog (Berkeley AI) 所有。 建議透過上方「閱讀原文」前往原始網站,以取得最完整資訊與支持原作者。