AI 新聞繁中

Google Deepmind 正在開發一款「AI 協同臨床醫師」，旨在協助醫生照護病患。該系統在模擬研究中展現出良好前景，但仍不及經驗豐富的醫師。這項研究也揭示了為何 ChatGPT 的語音模式尚未準備好處理嚴肅任務，更遑論醫療諮詢。這款「AI 協同臨床醫師」的核心概念是研究人員所稱的「三方照護」：AI 代理人協助病患完成治療，而醫生則保有臨床權威與監督權。其理念是讓 AI 系統成為醫療團隊的一員，在臨床醫師的監督下為病患提供支援。為了從臨床醫師的角度評估該系統，研究團隊與學術醫師合作，調整了 [NOHARM 框架](https://arxiv.org/abs/2512.01241)，以檢查兩種錯誤類型：判斷錯誤（errors of commission）和遺漏錯誤（errors of omission）。在一項針對 98 個真實初級照護問題的盲性比較中，醫師們一致選擇了 AI 協同臨床醫師的答案，而非領先的證據整合工具。它以 67 比 26 擊敗了現有的臨床 AI 系統，並以 63 比 30 戰勝了結合搜尋功能的 GPT-5.4。在客觀分析中，該系統在 98 個案例中記錄了一次嚴重錯誤。 [![圖片 1：長條圖顯示醫師在盲性比較中的偏好：AI 協同臨床醫師在 98 個案例中，有 67 個案例優於現有的臨床 AI 代理人，有 63 個案例優於結合搜尋功能的 GPT-5.4，兩者各有 5 個中立評分。](https://the-decoder.com/wp-content/uploads/2026/05/ai_co_clinician.webp)](https://the-decoder.com/wp-content/uploads/2026/05/ai_co_clinician.webp) 在 98 個真實初級照護問題的盲性比較中，醫師們偏好 AI 協同臨床醫師的答案，而非現有的臨床 AI 代理人（67 比 26）和結合搜尋功能的 GPT-5.4（63 比 30）。| 圖片：Google Deepmind 在藥物問題方面，AI 的領先幅度更大。[RxQA 基準測試](https://arxiv.org/abs/2503.06074) 涵蓋了 600 個關於活性成分、藥物交互作用和劑量的問題，這些問題取自兩個國家的國家藥物目錄，並經由執業藥師審核。這些問題對初級照護醫師來說相當困難：有參考書輔助時，他們的答對率為 61.3%，沒有參考書時則僅有 48.3%。 AI 協同臨床醫師的得分為 73.3%，略高於結合搜尋功能的 GPT-5.4 的 72.7%。當問題以開放式而非選擇題形式提出時（這也是醫師在工作中實際查詢資訊的方式），兩者之間的差距進一步擴大。在此情況下，AI 協同臨床醫師的品質得分達到 95.0%，而 OpenAI 的模型則為 90.9%。 ## 多模態遠距醫療將 AI 帶入診間除了基於文字的支援，Google Deepmind 正在測試 AI 協同臨床醫師如何處理即時音訊和視訊，以應用於遠距醫療。研究團隊與哈佛大學和史丹佛大學的醫師合作，進行了一項隨機模擬研究，包含 20 個模擬臨床情境、10 名扮演病患的醫師，總共進行了 120 次假設性的遠距醫療訪視。 AI 協同臨床醫師展現了超越純文字系統的能力。它能糾正病患的吸入器使用技巧，並引導病患進行肩部檢查以發現旋轉肌袖損傷。對於面向病患的對話，AI 協同臨床醫師採用雙代理人設定：「規劃模組」（Planner）監控對話，確保「對話代理人」（Talker）維持在安全的臨床範圍內。當醫師使用該系統時，它會優先考慮堅實的臨床證據，並在查詢過程中執行驗證和引用檢查。 ## 經驗豐富的醫師仍佔上風這項研究評估了七個領域中超過 140 個諮詢品質面向：分流、病史詢問、臨床推理、溝通與諮詢、治療步驟、辨識危險訊號和身體檢查。對於任何希望 AI 能取代醫師的人來說，這項結果令人清醒：經驗豐富的醫師整體表現優於 AI，尤其是在辨識「危險訊號」和引導關鍵身體檢查方面。儘管如此，AI 協同臨床醫師在 140 個評估領域中的 68 個方面，表現與初級照護醫師持平或更佳。OpenAI 的 GPT-realtime 在所有七個領域中都落後於前兩者。研究人員總結，這類系統最適合作為醫師的支援工具，而非取代臨床判斷。 ![圖片 2：長條圖比較了初級照護醫師、AI 協同臨床醫師和 GPT-realtime 在七個模擬遠距醫療諮詢領域的表現。醫師表現持續領先，AI 協同臨床醫師緊隨其後，GPT-realtime 表現最弱。](https://the-decoder.com/wp-content/uploads/2026/05/ai_co_clinician_vs_humans.webp) 在模擬遠距醫療訪視中，初級照護醫師（橙色）在所有七個評估領域的表現均優於 Google 的 AI 協同臨床醫師（藍色）。差距最大的是在辨識危險訊號（red flags）和身體檢查方面。OpenAI 的 GPT-realtime（灰色）在每個類別中都遠遠落後於前兩者。| 圖片：Google Deepmind 目前尚不清楚這項研究計畫是否會轉化為實際產品。研究結果顯示 AI 驅動的證據整合和遠距醫療諮詢取得了進展，但也明確指出，與經驗豐富的醫師之間仍存在差距，尤其是在辨識危險訊號等安全關鍵任務上。「雖然仍處於早期階段，但其潛力是顯而易見的。」Deepmind 研究員 Alan Karthikesalingam 表示。 ### 無炒作的 AI 新聞 – 由人類策劃訂閱 THE DECODER，享受無廣告閱讀、每週 AI 電子報、每年六次的獨家「AI 雷達」前沿報告、完整檔案庫存取權以及評論區使用權。 [立即訂閱](https://the-decoder.com/subscription/)

Google Deepmind AI 輔助醫師盲測勝 GPT-5.4，但仍不及資深醫師