NVIDIA 加速 Google DeepMind 的 DiffusionGemma，強化本地 AI 效能

今天，Google DeepMind 發表了 DiffusionGemma，這是一個實驗性的開源模型，專為極速文字生成而打造。NVIDIA 已最佳化 DiffusionGemma，使其能在 NVIDIA GeForce RTX GPU、NVIDIA RTX PRO 平台和 NVIDIA DGX Spark 系統上運行得更快，從本地個人電腦到雲端皆適用。

DiffusionGemma 不像傳統模型一次生成一個詞彙，而是平行生成多個詞彙，一次輸出整個文字區塊，為開發者、研究人員和 AI 愛好者日常運行的單用戶工作負載，開啟了低延遲的新境界。

新模型的特色包括：

平行生成：DiffusionGemma 每一步能去噪高達 256 個 token，而非一次預測一個。

基於 Gemma 4：DiffusionGemma 建立在 Gemma 4 之上，這是一個擁有 260 億參數的專家混合模型，每一步僅啟用 38 億參數，將擴散頭與 Google 的 Gemma 4 架構結合。

效能提升高達 4 倍：這項提升意味著在本地硬體上，單用戶生成通常會停滯的文字生成速度將大幅加快。

開源與本地運行：DiffusionGemma 採用寬鬆的 Apache 2.0 授權，權重開源，並完全在 RTX 和 DGX Spark 上運行，無需雲端，也沒有按 token 計費的成本，並在 Hugging Face Transformers、vLLM 和 Unsloth 中提供即時支援。

一種不同的文字生成方式

現今廣泛使用的幾乎所有大型語言模型（LLM）都是自迴歸的，這意味著它們一次生成一個 token，每個新詞都依賴於前一個詞。這種循序漸進的過程讓互動式 AI 感覺像是在打字。

DiffusionGemma 採取了不同的路徑。它基於 Gemma 4 26B 專家混合架構，以擴散模型生成影像的方式生成文字：從雜訊開始，一次性精煉整個文字區塊。每一步平行去噪高達 256 個 token，而不是發出單個 token 並等待計算下一個。

結果是一個以區塊而非循序方式思考的模型。對於延遲敏感的單用戶工作，例如互動式聊天、代理循環或在設備上規劃和執行的助理，這種平行處理能力轉化為足夠快的響應速度，以跟上開發者的思考和迭代節奏。

DiffusionGemma 在 NVIDIA GPU 上表現出色

一次生成一個 token 本質上是一個記憶體限制的問題——傳統的 LLM 大部分時間都在等待記憶體頻寬，而不是進行計算，這浪費了大量的運算潛力。

擴散模型顛覆了這個局面。平行地將完整的 256 個 token 區塊通過 Transformer 是一個運算密集型工作負載——這正是 NVIDIA GPU 的設計目的。NVIDIA Tensor Cores 加速了密集的平行運算，而 CUDA 軟體堆疊讓模型從第一天起就能高效運行，無需客製化調校。簡而言之，模型的設計直接發揮了 GPU 的優勢。

這體現在數據上。DiffusionGemma 在單個 NVIDIA H100 Tensor Core GPU 上可達每秒 1,000 個 token，在 NVIDIA DGX Spark 上為每秒 150 個 token，在 NVIDIA DGX Station 上最高可達每秒 2,000 個 token——比在相同單用戶模式下運行的等效自迴歸模型快約 4 倍。

這項優勢適用於 NVIDIA 的全系列產品，可在以下平台運行：

在 NVIDIA DGX Spark 桌邊個人 AI 超級電腦上本地運行——由配備 128GB 統一記憶體的 NVIDIA GB10 Grace Blackwell Superchip 提供動力——預裝的 NVIDIA AI 軟體堆疊已準備好用於原型設計、微調和完全本地的代理工作流程。

在 NVIDIA RTX PRO 6000 工作站上，為開發者、研究人員和 AI 專業人士提供足夠的空間，以在專業工作流程中運行本地低延遲生成和代理循環。

在 DGX Station 上，提供同級最佳的本地高速推論，每秒高達 2,000 個 token，用於低延遲文字生成和代理循環，並配備 748GB 的一致性記憶體。

在 GeForce RTX GPU 上，即將支援 llama.cpp。

開始測試和原型設計該模型最快的方法是透過 Hugging Face Transformers，它可以在 GeForce RTX 5090 或 DGX Spark 上直接運行 DiffusionGemma。對於更高吞吐量的推論，vLLM 提供即時服務支援。

為了將模型應用於特定任務或領域，可以透過 Unsloth 和 NVIDIA NeMo 框架進行微調，並提供現成的 DGX Spark 操作手冊，以快速建立本地運行環境。請查看適用於 DGX Spark、RTX PRO 和 DGX Station 的 vLLM 操作手冊。

您可以在 Hugging Face 上試用 DiffusionGemma，或透過 build.nvidia.com 上的 NVIDIA 託管應用程式介面免費測試。

欲深入了解其架構和本地部署，請閱讀 NVIDIA 技術部落格和 Google DeepMind 的公告。

#您可能錯過了：RTX AI Garage 的最新消息

🎬 NVIDIA 研究人員發布了 SANA-WM，這是一個開源的世界模型，能將單一圖像和攝影機路徑轉化為一分鐘長的 720p 影片，並具有精確的 6 自由度控制。其精簡版僅有 26 億參數，使用 NVFP4 格式在單一 NVIDIA GeForce RTX 5090 GPU 上，能在 34 秒內生成完整的 60 秒影片——相較於同類開源模型，吞吐量高達 36 倍，且僅需一個 GPU 即可運行。閱讀論文。

🛠️ 建立 Windows 代理程式現在有了完整的工具集——NVIDIA 和 Microsoft 在原生 Windows 上推出了交鑰匙代理程式沙盒（Microsoft eXecution Containers 加上 NVIDIA OpenShell 運行時），同時將代理程式推論速度提升高達 2 倍，並為 Hermes Agent 提供原生 Windows 支援。

🤖DGX Spark 從開箱到運行代理程式只需幾分鐘——簡化的 NVIDIA NemoClaw 安裝讓開發者能快速啟動本地代理程式，Qwen3.6-35B 在 vLLM 上運行速度提升高達 2.6 倍。NVIDIA Sync 中的新叢集助理可將多達四個 DGX Spark 單元連結成一個 512GB 的記憶體池——足以支援約 4000 億參數的模型。

請在 Facebook、Instagram、TikTok 和 X 上關注 RTX Spark，並訂閱 RTX Spark 電子報以獲取最新資訊。

請參閱有關軟體產品資訊的注意事項。