影片代理模型：AI 視訊生成的新未來 — xAI Grok Imagine 開發者 Ethan He 深度解析

我們本週將公布 AIEWF 講者名單！請參與 AI 工程調查！今天的來賓 Ethan 最初以 NVIDIA Cosmos World Model 專案負責人的身份加入我們的 LS Paper Club，隨後他加入了 xAI，並在三個月內打造了 Grok Imagine：Ethan He@EthanHe_42 很高興分享我們全新的 Grok Imagine 版本 🚀 這是迄今為止最高品質、最快且最具成本效益的視訊生成模型。

它支援 720P、視訊編輯和更好的音訊！我們仔細聆聽了您的回饋並迅速行動。就在六個月前，我們幾乎 xAI @xai 理解需要想像。Grok Imagine 讓您將腦中的想法化為現實，現在它可透過世界上最快、最強大的視訊 API 取得：https://t.co/tqQwQVgCEI 立即試用，讓您的想像力馳騁。

上午 5:43 · 2026 年 1 月 29 日 · 11.6 萬次瀏覽 127 則回覆 · 107 次轉發 · 1.35 萬個讚 He 帶著一些「核彈級」的熱門觀點重返 Latent Space：他認為影片模型的主要智慧來自 LLM，而非透過視訊資料訓練，而且真正互動式、即時、長時程的世界模型的下一個前沿是專注於 LLM（或許也包括互動模型）。

換句話說：在短期內，下一個 Sora 不會是更好的影片模型，而是一個影片代理。生成式媒體的發展可能更接近 AI 編碼的演進，後者從專注於一次性輸出效能和成本，轉變為用於代理和系統的多輪推理和規劃模型，這些系統能夠規劃、編輯、測試、偵錯和提交 PR。

在某個時間點，編碼模型變得如此出色，以至於提高效能的唯一重要下一步是處理這些模型的協調。現在，隨著影片模型在真實感、一致性和提示詞遵循度方面的效能顯著提升，同時變得更具成本效益，影片生成的下一個演進也可能是能夠在整個創意任務中進行規劃、生成、編輯、評論和迭代的系統。

X Freeze@XFreeze Grok Imagine 代理模式（Beta）剛在 Grok 網頁上線。它是一個在無限開放畫布上運作的完整創意代理。Grok Agent 在同一個工作區中自動規劃 → 生成 → 編輯 → 迭代所有內容。告訴它您想要什麼，然後看它規劃、生成、編輯。

上午 5:42 · 2026 年 4 月 30 日 · 92 萬次瀏覽 681 則回覆 · 1.15 萬次轉發 · 3.97 萬個讚在這一集中，Ethan 與 swyx 和 Vibhu 一起深入探討了建構前沿圖像和視訊系統的實際需求：資料、VAE、擴散變換器、音訊視訊對齊、推論加速，以及儲存和移動大量視訊資料集的隱藏成本。

從建構 NVIDIA 的 Cosmos 世界模型，到加入 xAI 並從零開始建構 Grok Imagine，Ethan He 一直處於視訊生成、多模態模型和即時世界模型一些最重要工作的核心。我們深入探討了 Grok Imagine，一個小型 xAI 團隊如何在三個月內發布其第一個多模態視訊模型，為什麼迭代速度在模型開發中比幾乎任何事情都重要，以及為什麼許多最大的進步來自於修復資料和訓練管線中的微小錯誤。

影片代理幾乎肯定會是未來一年的趨勢。我們最後展望了影片代理之外的未來：Flipbook 今年發布時引起了不小的轟動，但大多數人將其視為一個有趣的演示。Ethan 非常認真地看待它 — 隨著推論速度和成本每年下降，客製化視訊即時使用者介面（JIT UI）的未來比您想像的更近。

我們討論了為什麼視訊生成模型可能成為 AI 的前端，生成式使用者介面如何取代傳統的 HTML/CSS，為什麼世界模型需要即時、互動和長時程，以及為什麼視訊生成的未來可能更多地取決於語言模型和代理，而非單獨的擴散模型。我們討論：為什麼快速迭代比會議更重要；為什麼微小的訓練錯誤可以帶來巨大的模型品質提升；為什麼編碼模型可能再次使運算成為瓶頸；圖像和視訊模型如何透過合成字幕進行訓練；VAE 和潛在空間在前沿視訊模型中的作用；為什麼圖像模型是視訊模型的基礎；時間壓縮和即時互動性之間的權衡；Flipbook、Neural OS 和生成式使用者介面的未來；為什麼未來的介面可能從使用者意圖直接轉化為像素；訓練大型視訊模型的隱藏成本：儲存、輸出和 GPU 時數；步驟蒸餾和一致性模型（如 OpenAI sCM）如何使視訊推論速度提高數個數量級；Grok Imagine 0.9 和大規模音訊視訊生成；為什麼音訊視訊對齊比文字視訊對齊更困難；Ethan 對世界模型的定義；參考視訊、視訊擴展和長上下文視訊生成；為什麼 xAI 的研究溝通低估了 Grok Imagine；xAI 文化如何塑造開發速度；AI 浮水印、SynthID 和偵測生成媒體；為什麼提示詞重寫對視訊模型很重要；Grok Imagine Agent 和影片代理的興起；為什麼語言模型可能解鎖更好的視訊生成；機器人學、實體 AI 和具身世界模型；為什麼 Ethan 離開 xAI 並將重點轉向 LLM；自我管理上下文、記憶體和語言模型的下一個前沿。

Ethan He LinkedIn：https://www.linkedin.com/in/ethanhe42 X：https://x.com/EthanHe_42 00:00:00 介紹 00:01:25 從 NVIDIA Cosmos 到 xAI 00:03:24 從零到一建構 Grok Imagine 00:10:07 圖像和視訊模型如何訓練 00:18:53 視訊壓縮、VAE 和即時權衡 00:22:10 生成式使用者介面、Flipbook 和 Neural OS 00:32:10 訓練大型視訊模型的成本 00:37:04 蒸餾、GAN 和快速視訊推論 00:41:21 音訊視訊生成和 Grok Imagine 0.9 00:48:34 什麼是世界模型？

00:55:51 參考視訊、長上下文和視訊記憶體 01:00:11 xAI 文化、研究和第一性原理建構 01:09:45 AI 安全、浮水印和提示詞重寫 01:13:10 影片代理和 AI 輔助創作 01:27:32 為什麼語言模型解鎖更好的視訊 01:31:15 機器人學、實體 AI 和具身世界模型 01:32:38 為什麼 Ethan 離開 xAI 01:34:16 自我管理上下文和 LLM 的未來 01:38:43 Ethan 的職業生涯和結語 Swyx [00:00:00]: 我們在錄音室與 Ethan He，最近來自 xAI。

歡迎。Ethan [00:00:10]: 謝謝。很高興來到這裡。Swyx [00:00:11]: Vibhu 也在這裡。您最初加入 Latent Space 是因為您在 NVIDIA 參與 Kosmos 專案，並且發表了一篇論文。我們很喜歡。

您也做了演示，謝謝您。Ethan [00:00:23]: 實際上，我還在 Latent Space 演示了 MoEs 兩次。Swyx [00:00:29]: 您是怎麼聽說我們的？是我們聯繫您的嗎？Ethan [00:00:33]: 不，其實我——是社群。

我意識到，哦，有一個線上社群，人們在那裡討論 AI，每週透過 Paperclip 互相學習論文。這非常好。Ethan [00:00:49]: 我學到了很多。Swyx [00:00:49]: 我想已經三年了。我們從未停止，即使在聖誕節和新年。

很多週我都想停下來，但它一直持續著。Vibhu [00:00:58]: 不，那很好。我想您當時發布了您參與的一篇論文，我就想「哦，太酷了。我們有 Paperclip。來演示吧。」Vibhu [00:01:04]: 但我可能是在之後聯繫您的。

Swyx [00:01:05]: 您——因為這是一個業餘俱樂部，對吧？Swyx [00:01:08]: 所以這很不尋常，但我們有時會有論文作者來解釋論文。今天我們剛討論了 Poolside 論文，顯然非常棒。Vibhu [00:01:18]: 昨天剛出來。

Vibhu [00:01:19]: 很有趣，對吧？完全開放。他們討論所有事情，系統。所以這是一個很好的，我們會推薦大家閱讀。Swyx [00:01:25]: 帶我們了解一下您轉到 xAI 的情況，因為我甚至不知道您是什麼時候加入的。就講講這個轉變的故事吧。

Ethan [00:01:34]: 在 xAI 之前，我在 NVIDIA 參與 Kosmos 世界模型專案。Kosmos 是一個巨大的視訊基礎模型，旨在模擬世界，並作為所有機器人學家建構的基礎。當我建構 Kosmos One 後，我意識到這東西也具有類似語言模型的擴展法則，我們需要進一步擴展視訊模型。

這就是為什麼我意識到我需要搬到一個擁有更多運算資源的地方。這就是我——Swyx [00:02:13]: 比 NVIDIA 還多？Vibhu [00:02:14]: GPU 豐富的公司自己來了。Vibhu [00:02:19]: 從時間線來看，Kosmos 是什麼時候？

它很早，對吧？它是開放世界模型，開放論文，所有東西。Ethan [00:02:25]: 是 2024 年底。Vibhu [00:02:28]: 2024 年底。Ethan [00:02:30]: 然後在 2025 年年中，我搬到了 xAI。

當時——我加入的時候 xAI 正準備建構視訊模型和多模態模型。當時沒有基礎設施，沒有資料，也沒有模型，就只有幾個工程師，我們在三個月內建構了它並發布了第一個模型 Grok Imagine 0.9。Ethan [00:02:55]: 從那以後，我一直致力於視訊模型，並更多地從訓練轉向視訊模型的後訓練。

例如，參考視訊，有點像「客串」功能，以及視訊擴展。在我離開之前，我致力於一個世界模型，領導一個小型團隊專注於即時長時程視訊生成。Swyx [0003:24]: 您能給一個大致的路線圖嗎？好的，您在一個全新的團隊。Grok 以前只有文字，或者他們與 BFL 合作進行圖像生成。

您——建構模組是什麼？您有運算資源，可以從某處獲取資料。就講講當您組建一個新團隊時，人們應該考慮的順序。Vibhu [00:03:43]: 實際上更深入一點，不只是您可以獲取的資料。你們當時也必須去獲取資料，對吧？所以你們發布得很快，但是——Swyx [00:03:51]: 三個月就像——Vibhu [00:03:52]: 從所有東西——Swyx [00:03:52]: 實際上非常驚人的快。

Ethan [00:03:55]: 我要說一件事，多虧了我在 NVIDIA 的經驗，因為第一次我們一起建構 Kosmos 時，我們花了大約一年時間。所以這是我第二次做。大致知道該怎麼做。我認為最重要的是人才。每個人都非常強大和聰明，彼此非常親近，朝著共同的目標努力。

這大大加快了速度。所以您減少了人與人之間的溝通頻寬，每個人都可以朝著同一個目標努力。就像每天日曆上沒有那麼多會議，可能只有一次每日同步，之後就都是建構。那時候非常有趣。Ethan [00:04:47]: 另一件事是 xAI 在資料推論、模型推論和支援方面有非常堅實的基礎，這可以大大幫助模型開發。

當我審視訓練模型時，我其實不那麼——最重要的事情是您每天可以進行多少次迭代？您可以進行的迭代越多，您就可以更快地訓練模型。所以如果您有非常強大的基礎設施和大量的運算資源，您可以在很短的時間內訓練這些模型。這可以給您更大的錯誤緩衝區，它也給您發現更多錯誤的機會。

Swyx [00:05:46]: 什麼是迭代？是幾百個步驟嗎？還是什麼？Ethan [00:05:50]: 假設只是訓練模型，比如獲取新資料，也許設計新演算法，訓練一個新模型，也許規模較小或——Swyx [00:06:01]: 所以是任何您正在搜尋的超參數的週期時間。

Ethan [00:06:04]: 週期時間，並調整到評估這個模型。這個模型比我之前的迭代更好嗎？Ethan [00:06:11]: 所以——Swyx [00:06:11]: 所以在您之前，有人已經設定好了，讓您可以非常快速地迭代。Ethan [00:06:15]: 我認為重點是——