2026 年 6 月 9 日

Gemini 3.5 Live Translate 是我們最新的音訊模型,能提供超過 70 種語言的近乎即時語音對語音翻譯。

二十年前,Google 的翻譯功能始於我們一項開創性的機器學習實驗,旨在將語言科學轉化為人類連結的魔力。這項實驗已取得長足進展,每月為數十億用戶在我們的產品中翻譯超過一兆個單詞。今天,我們透過發布 Gemini 3.5 Live Translate 邁出了下一步,這是我們用於即時語音對語音翻譯的最新音訊模型。

該模型能自動偵測 70 多種語言,並生成流暢、自然的翻譯語音,同時保留說話者的語氣、語速和音高。與傳統的輪流式系統不同,傳統系統會等待說話者講完後才回應,而 3.5 Live Translate 則能持續生成語音,在等待上下文以提高品質與即時翻譯以保持與說話者同步之間取得平衡。它能提供流暢的音訊,沒有尷尬的停頓,並在整個會話過程中僅落後說話者幾秒鐘。

Gemini 3.5 Live Translate 將從今天開始陸續在 Google 產品中推出:

針對開發者:透過 Gemini Live API 和 Google AI Studio 提供公開預覽版。

針對企業:本月起在 Google Meet 中提供私人預覽版。

針對所有人:透過 Android 和 iOS 上的 Google Translate 應用程式。

使用 3.5 Live Translate 進行開發

Gemini 3.5 Live Translate 能在語音串流時進行處理,實現更無縫的跨語言連接。該模型能處理多語言輸入,無需手動配置設定。同時,其抗噪能力確保應用程式能夠應對嘈雜、不可預測的環境。您可以利用其功能來協助多語言通話、會議、課程、廣播等的即時口譯。

觀看 Gemini Live API 的實際應用,它支援配音和同步多語言翻譯。您可以深入了解示範或在 Gemini Cookbook 中查看更多範例程式碼。透過利用 Gemini Live API,Agora、Fishjam、LiveKit、Pipecat 和 Vision Agents 等開發者平台讓開發者能夠輕鬆建構和部署語音翻譯應用程式。

這些整合處理複雜的即時媒體串流基礎設施,因此開發者可以專注於使用者體驗。我們的合作夥伴 Grab 正在測試該模型,以實現司機和乘客在接送時的近乎即時多語言通訊。這些用戶每月透過 Grab 進行超過 1000 萬次語音通話。

閱讀早期評論

除了 Grab 之外,CJ ENM、LiveKit 等公司也對 3.5 Live Translate 給予了正面評價,強調其令人印象深刻的翻譯品質、準確性和低延遲性:

在您的視訊會議中體驗 3.5 Live Translate

Google Meet 中的語音翻譯功能將很快採用 3.5 Live Translate,透過以下方式改善體驗:

提供 70 多種語言,從之前僅限五種語言大幅提升。

在一次會議中實現超過 2000 種語言組合的對話,從之前僅限於英語之間的翻譯擴展。

更新介面以提供語音翻譯的即時存取。

我們將從本月開始為部分企業 Google Workspace 客戶推出此更新的私人預覽版,隨後將於今年稍晚進行更廣泛的推廣。

在 Android 或 iOS 上的 Google Translate 應用程式中取得 3.5 Live Translate

該模型也將在全球範圍內的 Android 和 iOS 版 Google Translate 應用程式中推出。使用即時翻譯功能時,只需連接任何一副耳機,即可體驗更無縫的翻譯,它能跨 70 多種語言模仿說話者的語氣。對於 Android 用戶,我們也開始推出一個新的「聆聽模式」,搭配 3.5 Live Translate,讓您可以直接透過手機聽筒聽到翻譯。

只需像普通通話一樣將手機貼近耳朵,翻譯後的音訊就會直接傳送給您。這種新體驗在您希望快速聽到翻譯而不讓其他人聽到,且手邊沒有耳機的情況下會很有幫助。

使用新的聆聽模式,用戶可以直接透過手機聽筒聽到西班牙語導覽的近乎即時英語翻譯。

使用 SynthID 進行浮水印

所有由我們的模型生成的音訊都帶有 SynthID 浮水印。這種難以察覺的浮水印直接編織到音訊輸出中,確保 AI 生成的內容仍然可被偵測,以幫助防止錯誤資訊。有關我們安全和責任方法的詳細資訊,請查閱模型卡。