研究
Google Deepmind AI 輔助醫師盲測勝 GPT-5.4,但仍不及資深醫師

摘要
Google Deepmind 開發的「AI 協同臨床醫師」在模擬研究中展現潛力,於盲測中表現優於 GPT-5.4 等現有 AI 系統。儘管該系統能輔助醫生進行初步診斷與藥物諮詢,甚至處理多模態遠距醫療,但在辨識危險訊號和執行關鍵身體檢查方面,仍不及經驗豐富的人類醫師。研究強調 AI 應作為醫師的輔助工具,而非取代臨床判斷。
Google Deepmind 正在開發一款「AI 協同臨床醫師」,旨在協助醫生照護病患。該系統在模擬研究中展現出良好前景,但仍不及經驗豐富的醫師。這項研究也揭示了為何 ChatGPT 的語音模式尚未準備好處理嚴肅任務,更遑論醫療諮詢。
這款「AI 協同臨床醫師」的核心概念是研究人員所稱的「三方照護」:AI 代理人協助病患完成治療,而醫生則保有臨床權威與監督權。其理念是讓 AI 系統成為醫療團隊的一員,在臨床醫師的監督下為病患提供支援。
為了從臨床醫師的角度評估該系統,研究團隊與學術醫師合作,調整了 [NOHARM 框架](https://arxiv.org/abs/2512.01241),以檢查兩種錯誤類型:判斷錯誤(errors of commission)和遺漏錯誤(errors of omission)。
在一項針對 98 個真實初級照護問題的盲性比較中,醫師們一致選擇了 AI 協同臨床醫師的答案,而非領先的證據整合工具。它以 67 比 26 擊敗了現有的臨床 AI 系統,並以 63 比 30 戰勝了結合搜尋功能的 GPT-5.4。在客觀分析中,該系統在 98 個案例中記錄了一次嚴重錯誤。
[](https://the-decoder.com/wp-content/uploads/2026/05/ai_co_clinician.webp)
在 98 個真實初級照護問題的盲性比較中,醫師們偏好 AI 協同臨床醫師的答案,而非現有的臨床 AI 代理人(67 比 26)和結合搜尋功能的 GPT-5.4(63 比 30)。| 圖片:Google Deepmind
在藥物問題方面,AI 的領先幅度更大。[RxQA 基準測試](https://arxiv.org/abs/2503.06074) 涵蓋了 600 個關於活性成分、藥物交互作用和劑量的問題,這些問題取自兩個國家的國家藥物目錄,並經由執業藥師審核。這些問題對初級照護醫師來說相當困難:有參考書輔助時,他們的答對率為 61.3%,沒有參考書時則僅有 48.3%。
AI 協同臨床醫師的得分為 73.3%,略高於結合搜尋功能的 GPT-5.4 的 72.7%。當問題以開放式而非選擇題形式提出時(這也是醫師在工作中實際查詢資訊的方式),兩者之間的差距進一步擴大。在此情況下,AI 協同臨床醫師的品質得分達到 95.0%,而 OpenAI 的模型則為 90.9%。
## 多模態遠距醫療將 AI 帶入診間
除了基於文字的支援,Google Deepmind 正在測試 AI 協同臨床醫師如何處理即時音訊和視訊,以應用於遠距醫療。研究團隊與哈佛大學和史丹佛大學的醫師合作,進行了一項隨機模擬研究,包含 20 個模擬臨床情境、10 名扮演病患的醫師,總共進行了 120 次假設性的遠距醫療訪視。
AI 協同臨床醫師展現了超越純文字系統的能力。它能糾正病患的吸入器使用技巧,並引導病患進行肩部檢查以發現旋轉肌袖損傷。
對於面向病患的對話,AI 協同臨床醫師採用雙代理人設定:「規劃模組」(Planner)監控對話,確保「對話代理人」(Talker)維持在安全的臨床範圍內。當醫師使用該系統時,它會優先考慮堅實的臨床證據,並在查詢過程中執行驗證和引用檢查。
## 經驗豐富的醫師仍佔上風
這項研究評估了七個領域中超過 140 個諮詢品質面向:分流、病史詢問、臨床推理、溝通與諮詢、治療步驟、辨識危險訊號和身體檢查。對於任何希望 AI 能取代醫師的人來說,這項結果令人清醒:經驗豐富的醫師整體表現優於 AI,尤其是在辨識「危險訊號」和引導關鍵身體檢查方面。
儘管如此,AI 協同臨床醫師在 140 個評估領域中的 68 個方面,表現與初級照護醫師持平或更佳。OpenAI 的 GPT-realtime 在所有七個領域中都落後於前兩者。研究人員總結,這類系統最適合作為醫師的支援工具,而非取代臨床判斷。

在模擬遠距醫療訪視中,初級照護醫師(橙色)在所有七個評估領域的表現均優於 Google 的 AI 協同臨床醫師(藍色)。差距最大的是在辨識危險訊號(red flags)和身體檢查方面。OpenAI 的 GPT-realtime(灰色)在每個類別中都遠遠落後於前兩者。| 圖片:Google Deepmind
目前尚不清楚這項研究計畫是否會轉化為實際產品。研究結果顯示 AI 驅動的證據整合和遠距醫療諮詢取得了進展,但也明確指出,與經驗豐富的醫師之間仍存在差距,尤其是在辨識危險訊號等安全關鍵任務上。「雖然仍處於早期階段,但其潛力是顯而易見的。」Deepmind 研究員 Alan Karthikesalingam 表示。
### 無炒作的 AI 新聞 – 由人類策劃
訂閱 THE DECODER,享受無廣告閱讀、每週 AI 電子報、每年六次的獨家「AI 雷達」前沿報告、完整檔案庫存取權以及評論區使用權。
[立即訂閱](https://the-decoder.com/subscription/)
標籤
AI醫療Google Deepmind遠距醫療臨床輔助醫療AI診斷輔助
以上為 AI 自動翻譯導讀。原文版權歸 The Decoder 所有。 建議透過上方「閱讀原文」前往原始網站,以取得最完整資訊與支持原作者。