今天,Google DeepMind 發表了 DiffusionGemma,這是一個實驗性的開源模型,專為極速文字生成而打造。NVIDIA 已最佳化 DiffusionGemma,使其能在 NVIDIA GeForce RTX GPU、NVIDIA RTX PRO 平台和 NVIDIA DGX Spark 系統上運行得更快,從本地個人電腦到雲端皆適用。
DiffusionGemma 不像傳統模型一次生成一個詞彙,而是平行生成多個詞彙,一次輸出整個文字區塊,為開發者、研究人員和 AI 愛好者日常運行的單用戶工作負載,開啟了低延遲的新境界。
新模型的特色包括:
平行生成:DiffusionGemma 每一步能去噪高達 256 個 token,而非一次預測一個。
基於 Gemma 4:DiffusionGemma 建立在 Gemma 4 之上,這是一個擁有 260 億參數的專家混合模型,每一步僅啟用 38 億參數,將擴散頭與 Google 的 Gemma 4 架構結合。
效能提升高達 4 倍:這項提升意味著在本地硬體上,單用戶生成通常會停滯的文字生成速度將大幅加快。
開源與本地運行:DiffusionGemma 採用寬鬆的 Apache 2.0 授權,權重開源,並完全在 RTX 和 DGX Spark 上運行,無需雲端,也沒有按 token 計費的成本,並在 Hugging Face Transformers、vLLM 和 Unsloth 中提供即時支援。
一種不同的文字生成方式
現今廣泛使用的幾乎所有大型語言模型(LLM)都是自迴歸的,這意味著它們一次生成一個 token,每個新詞都依賴於前一個詞。這種循序漸進的過程讓互動式 AI 感覺像是在打字。
DiffusionGemma 採取了不同的路徑。它基於 Gemma 4 26B 專家混合架構,以擴散模型生成影像的方式生成文字:從雜訊開始,一次性精煉整個文字區塊。每一步平行去噪高達 256 個 token,而不是發出單個 token 並等待計算下一個。
結果是一個以區塊而非循序方式思考的模型。對於延遲敏感的單用戶工作,例如互動式聊天、代理循環或在設備上規劃和執行的助理,這種平行處理能力轉化為足夠快的響應速度,以跟上開發者的思考和迭代節奏。
DiffusionGemma 在 NVIDIA GPU 上表現出色
一次生成一個 token 本質上是一個記憶體限制的問題——傳統的 LLM 大部分時間都在等待記憶體頻寬,而不是進行計算,這浪費了大量的運算潛力。
擴散模型顛覆了這個局面。平行地將完整的 256 個 token 區塊通過 Transformer 是一個運算密集型工作負載——這正是 NVIDIA GPU 的設計目的。NVIDIA Tensor Cores 加速了密集的平行運算,而 CUDA 軟體堆疊讓模型從第一天起就能高效運行,無需客製化調校。簡而言之,模型的設計直接發揮了 GPU 的優勢。
這體現在數據上。DiffusionGemma 在單個 NVIDIA H100 Tensor Core GPU 上可達每秒 1,000 個 token,在 NVIDIA DGX Spark 上為每秒 150 個 token,在 NVIDIA DGX Station 上最高可達每秒 2,000 個 token——比在相同單用戶模式下運行的等效自迴歸模型快約 4 倍。
這項優勢適用於 NVIDIA 的全系列產品,可在以下平台運行:
在 NVIDIA DGX Spark 桌邊個人 AI 超級電腦上本地運行——由配備 128GB 統一記憶體的 NVIDIA GB10 Grace Blackwell Superchip 提供動力——預裝的 NVIDIA AI 軟體堆疊已準備好用於原型設計、微調和完全本地的代理工作流程。
在 NVIDIA RTX PRO 6000 工作站上,為開發者、研究人員和 AI 專業人士提供足夠的空間,以在專業工作流程中運行本地低延遲生成和代理循環。
在 DGX Station 上,提供同級最佳的本地高速推論,每秒高達 2,000 個 token,用於低延遲文字生成和代理循環,並配備 748GB 的一致性記憶體。
在 GeForce RTX GPU 上,即將支援 llama.cpp。
開始測試和原型設計該模型最快的方法是透過 Hugging Face Transformers,它可以在 GeForce RTX 5090 或 DGX Spark 上直接運行 DiffusionGemma。對於更高吞吐量的推論,vLLM 提供即時服務支援。
為了將模型應用於特定任務或領域,可以透過 Unsloth 和 NVIDIA NeMo 框架進行微調,並提供現成的 DGX Spark 操作手冊,以快速建立本地運行環境。請查看適用於 DGX Spark、RTX PRO 和 DGX Station 的 vLLM 操作手冊。
您可以在 Hugging Face 上試用 DiffusionGemma,或透過 build.nvidia.com 上的 NVIDIA 託管應用程式介面免費測試。
欲深入了解其架構和本地部署,請閱讀 NVIDIA 技術部落格和 Google DeepMind 的公告。
#您可能錯過了:RTX AI Garage 的最新消息
🎬 NVIDIA 研究人員發布了 SANA-WM,這是一個開源的世界模型,能將單一圖像和攝影機路徑轉化為一分鐘長的 720p 影片,並具有精確的 6 自由度控制。其精簡版僅有 26 億參數,使用 NVFP4 格式在單一 NVIDIA GeForce RTX 5090 GPU 上,能在 34 秒內生成完整的 60 秒影片——相較於同類開源模型,吞吐量高達 36 倍,且僅需一個 GPU 即可運行。閱讀論文。
🛠️ 建立 Windows 代理程式現在有了完整的工具集——NVIDIA 和 Microsoft 在原生 Windows 上推出了交鑰匙代理程式沙盒(Microsoft eXecution Containers 加上 NVIDIA OpenShell 運行時),同時將代理程式推論速度提升高達 2 倍,並為 Hermes Agent 提供原生 Windows 支援。
🤖DGX Spark 從開箱到運行代理程式只需幾分鐘——簡化的 NVIDIA NemoClaw 安裝讓開發者能快速啟動本地代理程式,Qwen3.6-35B 在 vLLM 上運行速度提升高達 2.6 倍。NVIDIA Sync 中的新叢集助理可將多達四個 DGX Spark 單元連結成一個 512GB 的記憶體池——足以支援約 4000 億參數的模型。
請在 Facebook、Instagram、TikTok 和 X 上關注 RTX Spark,並訂閱 RTX Spark 電子報以獲取最新資訊。
請參閱有關軟體產品資訊的注意事項。
