ChatGPT 健康資訊處理能力再升級

健康是人們使用 ChatGPT 最有意義的方式之一。每週有超過 2.3 億人次向 ChatGPT 尋求健康與保健問題的協助，包括理解健康資訊、解讀檢驗報告、準備就診、處理保險事宜、建立更健康的習慣，以及知道下一步該問什麼。

透過 GPT-5.5 Instant，我們在健康領域取得了實質性的進展，改進了辨識何時需要緊急護理、詢問相關背景資訊、解釋不確定性以及使複雜資訊更容易理解的能力。在我們最具挑戰性的健康評估中，GPT-5.5 Instant 的表現已與我們的尖端 Thinking 模型相當。由於所有 ChatGPT 免費使用者都能使用，因此更多人可以從這些改進中受益。

這項進展反映了模型能力的提升，以及由醫師主導的健康評估工作。在我們的努力中，一個由全球醫師組成的網絡透過審查模型範例回應、描述理想行為並識別失敗模式，協助定義真實世界健康情境中的「良好」表現。與醫師合作讓我們能夠衡量健康領域的進展，並隨著時間推移改進 ChatGPT 的回應方式。

衡量健康領域的進展，意味著提供準確、易懂且基於良好判斷的回應：辨識何時需要更多背景資訊、在不誇大自信的情況下解釋不確定性，並協助人們了解何時該尋求醫療照護。為了衡量這項進展，我們使用了針對健康的特定評估，包括 HealthBench 和 HealthBench Professional。

這些評估利用真實的健康對話和醫師編寫的評分標準，來評估準確性、安全性、溝通、情境感知、完整性以及適當的升級處理等品質。

GPT-5.5 Instant 在包括 HealthBench Professional 在內的綜合健康評估中，達到了與我們最新尖端模型相似的健康表現，相較於 GPT-5.3 Instant 有了顯著提升。5.5 Instant（於 2026 年 5 月發布）和 5.3 Instant（於 2026 年 3 月發布）已開放給所有 ChatGPT 免費使用者使用（受限於使用限制），而我們則使用 API 定價來計算 5.4 Thinking 和 5.5 Thinking 的成本。

作為另一項比較，我們邀請醫師為具代表性的健康對話撰寫回應，他們擁有無限時間並可使用網路（但不能使用 AI）。隨後，另一個醫師小組將這些醫師撰寫的回應與模型的歷史回應進行比較，審查真實互動中重要的品質，包括準確性、溝通、完整性、指令遵循以及對健康決策的幫助，共審查了 3,500 份回應。

在此次評估中，GPT-5.5 Instant 的回應在各項標準上均獲得比醫師撰寫和舊模型回應更高的評價。

醫師們評估 GPT-5.5 Instant 的回應，發現其失敗模式少於舊模型和醫師撰寫的回應。例如，GPT-5.5 Instant 在未能根據當地醫療情境調整、遺漏警訊或轉介照護，或在需要時未能向使用者尋求額外背景資訊等方面的錯誤，都比舊模型和醫師更少。

鑑於我們的模型在健康領域的龐大使用規模，理解近期模型改進的另一種方式是衡量實際流量。我們使用保護隱私的監測器來追蹤健康回應中可能的事實性問題。根據對近期健康領域實際流量（每週數十億條訊息）的比較，在過去兩個月內，至少有一個事實性問題的回應比例下降了 71%。

更好的回應樣貌：比較模型在真實世界健康問題上的回應演變，顯示了 ChatGPT 如何在對健康至關重要方面取得進步：辨識何時需要緊急關注、以更好的判斷力處理不確定性，以及為人們提供更清晰、更有用的下一步指導。

進步背後的醫療專業知識：這項進展是由協助我們定義、衡量和改進 ChatGPT 健康回應的醫師們所塑造。OpenAI 與一個由全球 260 多名醫師組成的網絡合作，他們來自 60 個國家、使用 49 種語言，涵蓋 26 種醫學專業。他們的意見回饋指導了 ChatGPT 如何回應從日常保健問題到更複雜臨床情境的各種健康問題。

醫師們審查模型的範例回應，並評估其是否準確、清晰、完整、適度謹慎且實用。他們協助識別回應可能遺漏重要背景資訊、聽起來過於自信、對下一步說明不夠清楚，或未能更直接地鼓勵人們尋求醫療照護的地方。

迄今為止，醫師們已審查了超過 70 萬份模型範例回應，這些回應反映了患者和臨床醫生在現實世界中如何使用 ChatGPT。每隔幾分鐘，就有一位醫師審查一份新回應。他們的意見回饋轉化為評分標準和評估準則，協助研究人員衡量回應在真實世界健康情境中是否準確、安全、清晰、完整、適度謹慎且實用。這讓我們能更清楚地看到模型在哪裡有所改進，以及哪裡仍需努力。

將健康改進帶給更多人：這項工作也支持 OpenAI 在健康領域的更廣泛努力，包括為醫療保健打造的工具，例如 ChatGPT for Clinicians 和 OpenAI for Healthcare，這些工具協助醫療專業人員處理文件、研究和照護提供等任務。

改善人類健康將是 AGI 最個人化、最具體的影響之一。隨著我們的模型持續改進，我們的目標是讓 ChatGPT 在這些關鍵時刻更加準確、有用且具影響力，並將這項進展帶給更多人。