簡介全球超過半數人口使用兩種以上語言。對許多雙語使用者而言,語碼轉換(code-switching)——即便是句子中途也能流暢切換語言——是日常溝通的自然組成部分。無論是在隨意交談、客服中心或 IT 服務台,使用者都能流暢地適應當下感覺最自然的語言。

儘管全球雙語使用者普遍存在,但針對語音助理如何在企業環境中處理語碼轉換語音的研究卻很少。因此,當有客戶詢問我們的語音助理如何為他們經常進行語碼轉換的雙語客戶群服務時,我們決定建立自己的基準測試和資料集來評估模型。我們專注於自動語音辨識(ASR)——這是任何語音助理流程的第一步——因為轉錄錯誤會傳播到所有下游組件。

在企業環境中,錯誤的工單路由或對政策問題的誤解會產生實際的營運後果,因此正確的轉錄是語音助理流程中特別重要的一步。我們的基準測試涵蓋了對客戶群最相關的四種語言對:西班牙語-英語、法語-英語、加拿大法語-英語和德語-英語。它使用非英語語言作為主要框架,並嵌入不同長度的英語。

資料涵蓋了廣泛的人力資源(HR)和 IT 服務管理(ITSM)情境,包括員工對福利或薪資的查詢,以及密碼重設、VPN 存取或設備故障排除等支援請求。為了衡量各種模型的表現,我們報告了三個指標:詞錯誤率(Word Error Rate, WER)、語義詞錯誤率(Semantic Word Error Rate, SWER)和答案錯誤率(Answer Error Rate, AER)。

我們選擇這些指標旨在捕捉 (1) 模型轉錄的精確度,以及 (2) 其為下游任務保留語句意義的能力。我們透過用於評估語音模型的工具 AU-Harness 發布了我們的基準測試和資料。我們還提供了七個 ASR 系統的結果,其中包括一些大型音訊語言模型(Large Audio Language Models, LALMs)、前沿 ASR 和開源 ASR。

我們的主要發現是,語碼轉換的成本因語言對和測試模型而異。ElevenLabs Scribe V2、Gemini 3 Flash 和 Assembly AI Universal 3-Pro 在所有指標上均表現出色,成為此任務的頂級模型。基準測試資料管道我們從內部 IT 支援和 HR 互動語料庫開始。

為了創建每個語碼轉換的語句,我們首先使用英語和我們四種非英語語言之一的平行使用者語句,然後篩選出良好的語碼轉換候選。我們保留 12 到 40 個詞的語句——足夠短以作為自然的口語輪次,足夠長以包含實際的切換機會。我們還排除了實體佔主導地位的語句——例如電子郵件、電話號碼、ID 或 URL,這些內容因必要性而非雙語選擇而使文本一半為英語。

最後,我們要求至少有三個可切換的內容詞——非實體或產品名稱的名詞、動詞或形容詞——以提供生成模型足夠的材料來產生有意義的語碼轉換版本。接著,我們測試了多種策略以真實地結合語言,最終選擇了一個簡單的角色提示詞(persona prompt)發送給大型語言模型(LLM,OpenAI/GPT-5)來生成語碼轉換文本。

然後,我們使用 LLM 語音化處理將文本轉換為口語形式,並使用 ElevenLabs Multilingual V2 合成音訊。每個語句隨後由一位母語為主要語言的 AI/NLP 語言學家進行審查;被標記的語句會被排除或重新生成並再次審查。最終的資料集包含 259 條西班牙語-英語記錄、298 條法語-英語記錄、188 條加拿大法語-英語記錄和 173 條德語-英語記錄。

評估方法我們針對每個模型和每個語言對報告了三個指標,這些指標旨在捕捉轉錄準確性、意義保留和下游任務表現:詞錯誤率(WER)。除了每個語言對的總體 WER 外,我們還報告了單一語言的 WER。語義詞錯誤率(SWER)。此分數代表被判斷為具有語義意義的錯誤率。

我們的實作主要基於 Pipecat 的 STT 基準測試,我們使用 Gemma-4-31B 作為判斷模型。答案錯誤率(AER)。此指標直接捕捉轉錄錯誤是否會傳播到下游任務的失敗。它是一個問答指標,遵循 Bhushan 等人(IISc/ARTPARK, arXiv 2507.16456)的方法。

對於每個語句,我們生成三個下游理解問題,並測量閱讀 ASR 轉錄的 LLM 是否能正確回答這些問題。流程如下圖所示。發現我們評估了以下模型:AssemblyAI / Universal 3-Pro、Deepgram / Nova 3 Multilang、ElevenLabs / Scribe V2、Google / Gemini 3 Flash、Mistral AI / Voxtral Small 24B-2507、Nvidia / Parakeet TDT 0.6b V3、OpenAI / Whisper Large V3 Turbo。

A. 模型在語碼轉換基準測試上的表現如何?我們從兩個維度分析錯誤:詞級準確度,透過 WER 衡量。WER 是標準方法:它將真實轉錄與模型的輸出對齊,並量化它們之間的距離。儘管它簡單且廣泛使用,但它無法區分輕微的拼寫差異與完全錯誤的單詞。語義準確度,透過 SWER 和 AER 捕捉。

SWER 為我們提供了語句級性能的整體視圖,儘管它反映的是判斷模型的評估而非直接的下游測試。相比之下,AER 是一種功能性測試:對於每個語句,三個理解問題衡量最重要的細節——案例編號、姓名、日期、請求原因——是否在轉錄中得以保留。當模型在不同指標上表現不一時,這些指標之間的差異變得最有意義。

WER 結果(越低越好)ElevenLabs/Scribe V2 和 AssemblyAI/Universal-3 Pro 在轉錄準確度方面是前兩名模型。它們在西班牙語-英語上表現持平,在所有其他語言對上則相差 0.02-0.13 個百分點,其中 Scribe 在每個語言對上都略微領先。

Google/Gemini 3 Flash 在每個語言對上都緊隨其後,在加拿大法語-英語上落後最多,比 Scribe 落後 0.14 點,比 AssemblyAI 落後 0.12 點。Deepgram/Nova-3、Mistral/Voxtral 和 Nvidia/Parakeet 則位居中游,每個模型至少在一個語言對上表現突出。

Parakeet 總體而言是這三個模型中最弱的,但在德語-英語上縮小了差距,表現優於 Nova-3 和 Voxtral。OpenAI/Whisper Large V3 Turbo 墊底,WER 範圍從 0.16 到 0.61。儘管這是一個顯著的下降,但它反映了 Whisper 已知的限制。

當在語碼轉換音訊上呼叫時未明確指定語言參數,Whisper 會預設將其翻譯成英語而不是轉錄,從而未能保留音訊中使用的語言。SWER 和 AER 結果(越低越好)語義指標的結果與 WER 大致相似,但有些許反轉。Scribe V2 仍然保持第一名,SWER 和 AER 分數都非常低。

儘管 Assembly AI 在 WER 方面在所有語言對中排名第一或第二,但 Gemini 3 Flash 在 AER 方面始終優於它,將 AssemblyAI 推至第三位。SWER 也出現了相同的模式,儘管 AssemblyAI 在西班牙語-英語上優於 Gemini。

作為一個 LALM,Gemini 針對語言理解和推理進行了優化,這可能使其在對意義敏感的指標上具有優勢,即使其原始轉錄準確度有所不足。Whisper 的性能也出現了類似的轉變。儘管它仍然持續墊底,但在語義指標下,其表現不佳的幅度顯著縮小,這是其傾向於將語碼轉換音訊翻譯成英語而非轉錄的直接結果。

語義結果也顯示了 SWER 和 AER 之間顯著的一致性。這兩個指標在不同的粒度上運作——SWER 聚合每個詞的錯誤,而 AER 衡量每個語句的三個理解問題是否能被正確回答——因此預計會有規模上的差異。值得注意的是,模型在兩者之間的相對排名是多麼穩定。

一個明顯的例外是 Deepgram Nova-3,它在 SWER 上處於中等水平,但在所有語言對的 AER 上排名倒數第一或倒數第二。這種差距在西班牙語-英語上最為明顯:Nova-3 的整體語義錯誤率低於其在最重要細節上的錯誤率。B. 語碼轉換相較於單一語言語音會增加多少額外成本?

儘管這些結果清楚地描繪了模型在語碼轉換語音上的相對表現,但它們並未揭示錯誤是源於轉錄本身的固有難度,還是源於語言切換帶來的額外挑戰。為了隔離語碼轉換的成本,我們將每個語句透過我們的評估流程,使用三種音訊:語碼轉換音訊、相同內容的單一主要語言音訊,以及單一英語音訊。

對於每個語句,我們測量了語碼轉換和單一語言條件下 WER 的差異,並將這些差異匯總到整個基準測試中。結果如下。Scribe V2、Gemini 3 Flash 和 AssemblyAI 總體而言顯示出最小的差異,其中 Scribe V2 顯著優於其自身的 L2 基準線,這表明其對雙語輸入具有真正的穩健性。

語碼轉換的影響也遵循直觀的模式:表現最佳的系統相對於單一語言基準線只會產生很小的損失,而排名較低的模型則會大幅下降,這表明語碼轉換主要揭示了穩健性方面的差異,而不是統一提高所有模型的難度。所有語言對都出現了一致的結構模式:綠色條(相對於英語的成本)幾乎總是比紅色條(相對於 L2 的成本)大,這是預期的——對於大多數模型而言,L2 基準線本身就比英語難,因此相對於它衡量時,淨切換懲罰較小。

最明顯的例外是 Whisper,它相對於英語顯示出最大的退化,在德語-英語上達到 +0.85 的峰值。它也是唯一一個在語碼轉換語音上表現優於單一語言 L2 的模型——這是預設翻譯的直接結果,完全繞過了主要語言。C. 語碼轉換如何破壞 ASR 系統?

既然我們知道語碼轉換會導致模型出錯,我們將轉而調查與這些錯誤相關的特定條件。為了解決這個問題,我們採用了一個兩部分模型:首先,我們使用邏輯迴歸來詢問哪些變數與至少一個轉錄錯誤的發生相關。其次,在至少一個錯誤發生的條件下,我們使用普通最小平方法(OLS)迴歸來檢視哪些變數與錯誤的嚴重程度相關。

這種兩部分方法使我們能夠區分導致錯誤更可能發生的因素,以及一旦發生錯誤後影響錯誤嚴重程度的因素。這兩個步驟都包含相同的預測變數:(1) 語句中語言切換的次數,以及 (2) 語句的語碼混合指數(Code-Mixing Index, CMI)。