健康是人們使用 ChatGPT 最有意義的方式之一。每週有超過 2.3 億人次向 ChatGPT 尋求健康與保健問題的協助,包括理解健康資訊、解讀檢驗報告、準備就診、處理保險事宜、建立更健康的習慣,以及知道下一步該問什麼。
透過 GPT-5.5 Instant,我們在健康領域取得了實質性的進展,改進了辨識何時需要緊急護理、詢問相關背景資訊、解釋不確定性以及使複雜資訊更容易理解的能力。在我們最具挑戰性的健康評估中,GPT-5.5 Instant 的表現已與我們的尖端 Thinking 模型相當。由於所有 ChatGPT 免費使用者都能使用,因此更多人可以從這些改進中受益。
這項進展反映了模型能力的提升,以及由醫師主導的健康評估工作。在我們的努力中,一個由全球醫師組成的網絡透過審查模型範例回應、描述理想行為並識別失敗模式,協助定義真實世界健康情境中的「良好」表現。與醫師合作讓我們能夠衡量健康領域的進展,並隨著時間推移改進 ChatGPT 的回應方式。
衡量健康領域的進展,意味著提供準確、易懂且基於良好判斷的回應:辨識何時需要更多背景資訊、在不誇大自信的情況下解釋不確定性,並協助人們了解何時該尋求醫療照護。為了衡量這項進展,我們使用了針對健康的特定評估,包括 HealthBench 和 HealthBench Professional。
這些評估利用真實的健康對話和醫師編寫的評分標準,來評估準確性、安全性、溝通、情境感知、完整性以及適當的升級處理等品質。
GPT-5.5 Instant 在包括 HealthBench Professional 在內的綜合健康評估中,達到了與我們最新尖端模型相似的健康表現,相較於 GPT-5.3 Instant 有了顯著提升。5.5 Instant(於 2026 年 5 月發布)和 5.3 Instant(於 2026 年 3 月發布)已開放給所有 ChatGPT 免費使用者使用(受限於使用限制),而我們則使用 API 定價來計算 5.4 Thinking 和 5.5 Thinking 的成本。
作為另一項比較,我們邀請醫師為具代表性的健康對話撰寫回應,他們擁有無限時間並可使用網路(但不能使用 AI)。隨後,另一個醫師小組將這些醫師撰寫的回應與模型的歷史回應進行比較,審查真實互動中重要的品質,包括準確性、溝通、完整性、指令遵循以及對健康決策的幫助,共審查了 3,500 份回應。
在此次評估中,GPT-5.5 Instant 的回應在各項標準上均獲得比醫師撰寫和舊模型回應更高的評價。
醫師們評估 GPT-5.5 Instant 的回應,發現其失敗模式少於舊模型和醫師撰寫的回應。例如,GPT-5.5 Instant 在未能根據當地醫療情境調整、遺漏警訊或轉介照護,或在需要時未能向使用者尋求額外背景資訊等方面的錯誤,都比舊模型和醫師更少。
鑑於我們的模型在健康領域的龐大使用規模,理解近期模型改進的另一種方式是衡量實際流量。我們使用保護隱私的監測器來追蹤健康回應中可能的事實性問題。根據對近期健康領域實際流量(每週數十億條訊息)的比較,在過去兩個月內,至少有一個事實性問題的回應比例下降了 71%。
更好的回應樣貌:比較模型在真實世界健康問題上的回應演變,顯示了 ChatGPT 如何在對健康至關重要方面取得進步:辨識何時需要緊急關注、以更好的判斷力處理不確定性,以及為人們提供更清晰、更有用的下一步指導。
進步背後的醫療專業知識:這項進展是由協助我們定義、衡量和改進 ChatGPT 健康回應的醫師們所塑造。OpenAI 與一個由全球 260 多名醫師組成的網絡合作,他們來自 60 個國家、使用 49 種語言,涵蓋 26 種醫學專業。他們的意見回饋指導了 ChatGPT 如何回應從日常保健問題到更複雜臨床情境的各種健康問題。
醫師們審查模型的範例回應,並評估其是否準確、清晰、完整、適度謹慎且實用。他們協助識別回應可能遺漏重要背景資訊、聽起來過於自信、對下一步說明不夠清楚,或未能更直接地鼓勵人們尋求醫療照護的地方。
迄今為止,醫師們已審查了超過 70 萬份模型範例回應,這些回應反映了患者和臨床醫生在現實世界中如何使用 ChatGPT。每隔幾分鐘,就有一位醫師審查一份新回應。他們的意見回饋轉化為評分標準和評估準則,協助研究人員衡量回應在真實世界健康情境中是否準確、安全、清晰、完整、適度謹慎且實用。這讓我們能更清楚地看到模型在哪裡有所改進,以及哪裡仍需努力。
將健康改進帶給更多人:這項工作也支持 OpenAI 在健康領域的更廣泛努力,包括為醫療保健打造的工具,例如 ChatGPT for Clinicians 和 OpenAI for Healthcare,這些工具協助醫療專業人員處理文件、研究和照護提供等任務。
改善人類健康將是 AGI 最個人化、最具體的影響之一。隨著我們的模型持續改進,我們的目標是讓 ChatGPT 在這些關鍵時刻更加準確、有用且具影響力,並將這項進展帶給更多人。
