今天,我們推出 DiffusionGemma,這是一個實驗性的開源模型,旨在探索文字擴散技術,一種極為快速的文字生成方法。該模型採用 Apache 2.0 授權發布,是一個 26B 的專家混合模型(MoE),它超越了傳統自迴歸大型語言模型(LLM)逐個 token 依序處理的模式。相反地,它能同時生成整個文字區塊,在 GPU 上實現高達四倍的文字生成速度。
DiffusionGemma 建立在我們 Gemma 4 系列領先業界的每參數智慧表現,以及尖端的 Gemini Diffusion 研究之上,整合了一個新穎的擴散頭,旨在最大限度地提高生成速度。儘管自迴歸的 Gemma 4 模型仍然是高品質生產輸出的標準,但 DiffusionGemma 專為研究人員和開發者設計,用於探索對速度至關重要的互動式本地工作流程,例如即時編輯、快速迭代和生成非線性文字結構。
為開發者釋放新價值:開發者在建構即時互動式 AI 應用程式時,經常面臨本地推論的延遲瓶頸。DiffusionGemma 直接解決了這些挑戰,並帶來了一些關鍵的權衡:極速推論:透過將解碼瓶頸從記憶體頻寬轉移到計算,DiffusionGemma 在專用 GPU 上能以高達四倍的速度輸出 token。
(單一 NVIDIA H100 上每秒超過 1000 個 token,NVIDIA GeForce RTX 5090 上每秒超過 700 個 token)。可負擔的硬體需求:DiffusionGemma 作為一個總參數 26B 的專家混合模型(MoE),在推論時僅啟用 3.8B 參數,經過量化後,可輕鬆運行於高階消費級 GPU 的 18GB 顯示記憶體限制內。
雙向注意力:每次前向傳播可平行生成 256 個 token,讓每個 token 都能關注所有其他 token。這為非線性領域帶來顯著優勢,例如即時編輯、程式碼補完、胺基酸序列或數學圖形。智慧自我修正:模型會迭代地精煉其輸出,使其能夠一次評估整個文字區塊,即時修正錯誤。
實驗狀態與生產建議:由於 DiffusionGemma 優先考慮速度和平行佈局生成,其整體輸出品質低於標準的 Gemma 4。對於要求最高品質的應用程式,我們建議部署標準的 Gemma 4。
您可以透過微調來提升 DiffusionGemma 在特定任務上的表現。在下面的範例中,Unsloth 微調了 DiffusionGemma 來玩數獨——這是一個自迴歸模型難以處理的任務,因為每個 token 都依賴於未來的 token。DiffusionGemma 的雙向注意力使其更容易完成這項任務。
為何選擇文字擴散?儘管 AI 研究社群多年來一直在探索基於擴散的文字生成,但將其應用於大型模型仍是一項挑戰。DiffusionGemma 透過改變模型使用硬體的方式來解決這個問題。傳統模型的權衡:大多數語言模型就像打字機一樣,從左到右逐個 token 生成。
在雲端環境中,這很有效率,因為伺服器可以將數千個使用者請求批次處理,以分攤硬體負載。但當為單一使用者在本地運行時,這種逐字處理的過程會導致您的專用 GPU 或 TPU 未充分利用——它大部分時間只是在等待下一個「按鍵」。DiffusionGemma 扭轉了這種低效率。
它不是依序預測單詞,而是同時起草一個完整的 256 個 token 的段落。透過一次性給予電腦處理器更大塊的工作,DiffusionGemma 充分利用了您的硬體潛力。它將您的模型推論從單一、依序的打字機升級為一台能同時印製整個文字區塊的巨型印刷機。
這意味著 DiffusionGemma 的速度提升是為本地和低併發推論設計的。在高 QPS 的雲端服務中,自迴歸模型可以有效地部署以飽和計算資源,因此 DiffusionGemma 的平行解碼會帶來遞減的回報,並可能導致更高的服務成本。在單一加速器上,其吞吐量優勢在低到中等批次大小時最為顯著。
文字擴散的工作原理:類似於 AI 圖像生成器從視覺雜訊開始,並迭代地將其精煉成清晰圖像,DiffusionGemma 將此概念應用於文字:畫布:模型從一個由隨機佔位符 token 組成的畫布開始。迭代精煉:模型進行多次傳遞,鎖定正確的 token,並將其作為上下文線索來精煉其餘部分。最終潤飾:文字收斂成高品質的輸出。
由於模型在生成時可以處理整個段落,它解鎖了新的模型行為模式,例如完美地閉合複雜的 Markdown 格式,或近乎即時地生成和渲染程式碼。立即開始:下載權重:立即在 Hugging Face 上獲取實驗模型權重(根據寬鬆的 Apache 2.0 授權發布)。
整合與學習:在我們的 DiffusionGemma 開發者指南中了解更多資訊。或深入閱讀《DiffusionGemma 視覺指南》以了解其內部機制。使用您最喜歡的開發工具:使用 MLX、vLLM(由 Red Hat 支援整合)和 Hugging Face Transformers 高效地部署模型。
為了快速實驗,我們發布了一個使用 Hackable Diffusion(一個為可組合性設計的模組化 JAX 工具箱)進行微調的教學。您也可以探索使用 Unsloth 和 NVIDIA NeMo 進行微調。此外,llama.cpp 的官方支援即將推出。
體驗優化性能:我們與 NVIDIA 合作,優化其整個硬體堆疊,確保與消費級設定(針對 GeForce RTX 5090 和 4090 GPU 進行量化)的相容性,同時在企業系統(使用先進 NVFP4 核心的 Hopper 和 Blackwell)上實現高效能,包括用於本地桌面部署的 NVIDIA DGX Spark 和 DGX Station,以及適用於 AI 專業人士的 RTX PRO。
對 NVFP4(4 位元浮點數)的原生支援加速了計算吞吐量,使模型能夠以更快的速度運行,且幾乎沒有精度損失。選擇您的運行方式:在您的桌面專用 GPU 上運行,或透過 Gemini Enterprise Agent Platform Model Garden 或 NVIDIA NIM 在雲端運行。
註:由於這種速度提升依賴於利用加速器的高算術強度,像 Apple Silicon Mac 中那樣的統一記憶體架構——在推論時通常受記憶體頻寬限制而非計算限制——可能不會看到與 Gemma 4 等自迴歸模型相同的加速效果。
