Jun 03, 2026

Gemma 4 12B 旨在將高效能的多模態智慧直接帶到您的筆記型電腦上,結合了行動優先的效率與先進的推理能力。

Olivier Lacombe

Google DeepMind 產品管理總監

Gus Martins

Google DeepMind 產品經理

今天,我們推出了 Gemma 4 12B,這是我們最新設計的模型,旨在將代理式多模態智慧直接帶到筆記型電腦上。Gemma 4 12B 彌補了我們邊緣裝置友善的 E4B 模型與更進階的 26B 專家混合模型 (MoE) 之間的差距,將強大的功能封裝在減少記憶體佔用的體積中。這也是我們首款具備原生音訊輸入的中型模型。

感謝開發者社群,Gemma 4 模型目前的下載量已突破 1.5 億次。你們已經打造了從用於物理協助的穿戴式機器手臂到企業級 AI 安全等各種應用。我們很高興能看到你們利用這個最新成員創造出什麼。

以下是 Gemma 4 12B 的獨特之處:

創新的統一架構:無需多模態編碼器。視覺和音訊輸入直接流入大型語言模型 (LLM) 的主幹。

進階推理能力:基準測試性能接近我們的 26B 模型,解鎖了強大的多步驟推理和代理工作流程。

筆電就緒:體積夠小,只需 16GB 顯示記憶體 (VRAM) 或統一記憶體即可在本地端執行。

開放且易於取得:在 Apache 2.0 授權下發布,並獲得整個開發者生態系統的支援。

具備草稿器功能:Gemma 4 12B 配備多詞元預測 (MTP) 草稿器以減少延遲。

這些功能共同將先進的多模態能力帶到日常硬體上,同時不犧牲速度或推理能力。現在,讓我們仔細看看 Gemma 4 12B 是如何實現這一點的。

在地端執行最先進的代理

Gemma 4 12B 在標準基準測試上的性能接近我們更大的 26B MoE 模型,但總記憶體佔用量不到一半。它體積夠小,可以在配備 16GB 記憶體的消費級筆記型電腦上本地執行,在您的機器上解鎖強大的多模態和代理體驗。

體驗獨特高效的統一架構

Gemma 4 12B 之所以脫穎而出,在於其處理視覺和音訊輸入的精簡方法。傳統的多模態模型通常依賴獨立的編碼器來翻譯圖像和音訊,然後再將這些表示傳遞給語言模型。由於這些分割編碼器會增加延遲並提高記憶體使用量,我們訓練 Gemma 4 12B 採用無編碼器架構,以直接整合音訊和視覺輸入。

以下是 Gemma 4 12B 如何原生處理多模態輸入:

視覺:我們將 Gemma 4 的視覺編碼器替換為一個輕量級嵌入模組,該模組由單一矩陣乘法、位置嵌入和正規化組成。這使得 LLM 主幹能夠接管視覺處理。

音訊:我們進一步簡化了音訊處理。我們完全移除了音訊編碼器,並將原始音訊訊號投射到與文字詞元相同的維度空間。

對於想要深入了解的開發者,請前往我們的隨附 Gemma 4 12B 開發者指南。

立即開始使用

親自嘗試:在 LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent app 和 LiteRT-LM CLI 中,只需點擊幾下即可進行實驗。

下載模型權重:直接從 Hugging Face 和 Kaggle 下載預訓練和指令微調的檢查點。

整合與學習:查閱開發者文件和快速入門筆記本。

使用您喜歡的開發工具:使用 Hugging Face Transformers、llama.cpp、MLX、SGLang 和 vLLM 實作本地推論管線,或使用 Unsloth 高效率地進行微調。

透過 Gemma 技能解鎖代理開發:為支援代理利用最新的 Gemma 進展進行開發,我們正在發布官方技能儲存庫。這是一個專門設計用於讓代理能使用 Gemma 模型進行開發的技能庫。

彈性部署:使用 Google Cloud 在生產環境中建立端點。透過 Gemini Enterprise Agent Platform Model Garden、Cloud Run 和 GKE 進行部署。