Google DeepMind 推出 DiffusionGemma：文字生成速度飆升四倍

今天，我們推出 DiffusionGemma，這是一個實驗性的開源模型，旨在探索文字擴散技術，一種極為快速的文字生成方法。該模型採用 Apache 2.0 授權發布，是一個 26B 的專家混合模型（MoE），它超越了傳統自迴歸大型語言模型（LLM）逐個 token 依序處理的模式。相反地，它能同時生成整個文字區塊，在 GPU 上實現高達四倍的文字生成速度。

DiffusionGemma 建立在我們 Gemma 4 系列領先業界的每參數智慧表現，以及尖端的 Gemini Diffusion 研究之上，整合了一個新穎的擴散頭，旨在最大限度地提高生成速度。儘管自迴歸的 Gemma 4 模型仍然是高品質生產輸出的標準，但 DiffusionGemma 專為研究人員和開發者設計，用於探索對速度至關重要的互動式本地工作流程，例如即時編輯、快速迭代和生成非線性文字結構。

為開發者釋放新價值：開發者在建構即時互動式 AI 應用程式時，經常面臨本地推論的延遲瓶頸。DiffusionGemma 直接解決了這些挑戰，並帶來了一些關鍵的權衡：極速推論：透過將解碼瓶頸從記憶體頻寬轉移到計算，DiffusionGemma 在專用 GPU 上能以高達四倍的速度輸出 token。

（單一 NVIDIA H100 上每秒超過 1000 個 token，NVIDIA GeForce RTX 5090 上每秒超過 700 個 token）。可負擔的硬體需求：DiffusionGemma 作為一個總參數 26B 的專家混合模型（MoE），在推論時僅啟用 3.8B 參數，經過量化後，可輕鬆運行於高階消費級 GPU 的 18GB 顯示記憶體限制內。

雙向注意力：每次前向傳播可平行生成 256 個 token，讓每個 token 都能關注所有其他 token。這為非線性領域帶來顯著優勢，例如即時編輯、程式碼補完、胺基酸序列或數學圖形。智慧自我修正：模型會迭代地精煉其輸出，使其能夠一次評估整個文字區塊，即時修正錯誤。

實驗狀態與生產建議：由於 DiffusionGemma 優先考慮速度和平行佈局生成，其整體輸出品質低於標準的 Gemma 4。對於要求最高品質的應用程式，我們建議部署標準的 Gemma 4。

您可以透過微調來提升 DiffusionGemma 在特定任務上的表現。在下面的範例中，Unsloth 微調了 DiffusionGemma 來玩數獨——這是一個自迴歸模型難以處理的任務，因為每個 token 都依賴於未來的 token。DiffusionGemma 的雙向注意力使其更容易完成這項任務。

為何選擇文字擴散？儘管 AI 研究社群多年來一直在探索基於擴散的文字生成，但將其應用於大型模型仍是一項挑戰。DiffusionGemma 透過改變模型使用硬體的方式來解決這個問題。傳統模型的權衡：大多數語言模型就像打字機一樣，從左到右逐個 token 生成。

在雲端環境中，這很有效率，因為伺服器可以將數千個使用者請求批次處理，以分攤硬體負載。但當為單一使用者在本地運行時，這種逐字處理的過程會導致您的專用 GPU 或 TPU 未充分利用——它大部分時間只是在等待下一個「按鍵」。DiffusionGemma 扭轉了這種低效率。

它不是依序預測單詞，而是同時起草一個完整的 256 個 token 的段落。透過一次性給予電腦處理器更大塊的工作，DiffusionGemma 充分利用了您的硬體潛力。它將您的模型推論從單一、依序的打字機升級為一台能同時印製整個文字區塊的巨型印刷機。

這意味著 DiffusionGemma 的速度提升是為本地和低併發推論設計的。在高 QPS 的雲端服務中，自迴歸模型可以有效地部署以飽和計算資源，因此 DiffusionGemma 的平行解碼會帶來遞減的回報，並可能導致更高的服務成本。在單一加速器上，其吞吐量優勢在低到中等批次大小時最為顯著。

文字擴散的工作原理：類似於 AI 圖像生成器從視覺雜訊開始，並迭代地將其精煉成清晰圖像，DiffusionGemma 將此概念應用於文字：畫布：模型從一個由隨機佔位符 token 組成的畫布開始。迭代精煉：模型進行多次傳遞，鎖定正確的 token，並將其作為上下文線索來精煉其餘部分。最終潤飾：文字收斂成高品質的輸出。

由於模型在生成時可以處理整個段落，它解鎖了新的模型行為模式，例如完美地閉合複雜的 Markdown 格式，或近乎即時地生成和渲染程式碼。立即開始：下載權重：立即在 Hugging Face 上獲取實驗模型權重（根據寬鬆的 Apache 2.0 授權發布）。

整合與學習：在我們的 DiffusionGemma 開發者指南中了解更多資訊。或深入閱讀《DiffusionGemma 視覺指南》以了解其內部機制。使用您最喜歡的開發工具：使用 MLX、vLLM（由 Red Hat 支援整合）和 Hugging Face Transformers 高效地部署模型。

為了快速實驗，我們發布了一個使用 Hackable Diffusion（一個為可組合性設計的模組化 JAX 工具箱）進行微調的教學。您也可以探索使用 Unsloth 和 NVIDIA NeMo 進行微調。此外，llama.cpp 的官方支援即將推出。

體驗優化性能：我們與 NVIDIA 合作，優化其整個硬體堆疊，確保與消費級設定（針對 GeForce RTX 5090 和 4090 GPU 進行量化）的相容性，同時在企業系統（使用先進 NVFP4 核心的 Hopper 和 Blackwell）上實現高效能，包括用於本地桌面部署的 NVIDIA DGX Spark 和 DGX Station，以及適用於 AI 專業人士的 RTX PRO。

對 NVFP4（4 位元浮點數）的原生支援加速了計算吞吐量，使模型能夠以更快的速度運行，且幾乎沒有精度損失。選擇您的運行方式：在您的桌面專用 GPU 上運行，或透過 Gemini Enterprise Agent Platform Model Garden 或 NVIDIA NIM 在雲端運行。

註：由於這種速度提升依賴於利用加速器的高算術強度，像 Apple Silicon Mac 中那樣的統一記憶體架構——在推論時通常受記憶體頻寬限制而非計算限制——可能不會看到與 Gemma 4 等自迴歸模型相同的加速效果。