OpenAI 模型助醫師診斷兒童罕見遺傳疾病

即使進行了基因組定序，許多罕見疾病患者仍無法獲得明確的基因診斷。大約一半的患者在經過大量檢測和專家審查後，仍未被診斷出來。他們的醫療數據可能包含線索，但要找到這些線索，可能需要篩選數千到數百萬種可能的基因變異、零碎的臨床記錄以及快速變化的科學文獻。

隨著新的基因與疾病關聯、病例報告和分類證據不斷累積，過去未解的案例可能會變得可重新解讀。波士頓兒童醫院曼頓孤兒疾病研究中心、哈佛大學和 OpenAI 的研究人員，利用 OpenAI o3 Deep Research 推理模型，分析了 376 個先前已分析但仍未解決的去識別化臨床和基因組資訊。

該模型為研究人員和臨床醫生提供了與證據相關的候選解釋供審查。經過專家審查、額外檢測和臨床確認後，醫師在 18 個案例中確立了診斷，這是在早期專家分析之後，額外增加了 4.8% 的診斷率。這項研究於 2026 年 6 月 18 日發表在《NEJM AI》上，展示了 AI 輔助的研究工作流程如何幫助專家在重新審視一些最困難的案例時產生線索。

其中許多案例多年來一直未能被專家分析解決。在這項研究中，OpenAI o3 Deep Research 幫助研究人員識別出後來通過既定臨床流程評估的線索，這表明隨著知識的演進，專家主導的定期再分析可以變得更具規模。該模型並未診斷任何患者或做出任何臨床決策，它產生了與證據相關的假說，供專家審查，並在適當情況下通過額外檢測在臨床實驗室中確認。

不確定的基因檢測結果並非總是永久性的。患者的表型描述、檢測結果和家族史可能分散在不同的資料庫中，這些資料庫使用不同的識別碼、格式和詞彙。連結這些記錄很困難，因此即使是專家也可能錯過診斷。專家也可能在相關基因或其變異與疾病建立關聯之前，就對兒童的基因組進行定序。隨著科學知識的進步，相同的數據可以揭示以前無法發現的答案。

罕見疾病的再分析既是一個科學問題，也是一個維護問題。患者的基因組可能保持不變，但圍繞它的證據卻不斷變化：研究人員將新的基因和變異與疾病聯繫起來，實驗室重新分類舊的變異，病例資料庫和論文累積新的觀察結果。每次更新都可能使一個舊的、不確定的案例值得重新審視，因此許多機構繼承了越來越多的基因組積壓，需要與不斷變化的知識庫保持同步。

在這項研究中，研究人員設計了工作流程，使模型作為現有基因組管線之上的「解釋優先」推理層。它不是只返回一個排名靠前的基因，而是被要求將臨床特徵、遺傳模式、變異證據和科學文獻連結起來，形成一個人類審閱者可以審查的理由。

對於每個案例，團隊組裝了一個去識別化的資料包，其中包含標準化的人類表型本體論術語來描述患者的臨床表現、偶爾的臨床醫生筆記和任何描述性臨床診斷、年齡和性別等元數據，以及一個過濾後的變異表。該表記錄了每個變異的稀有性、其對編碼蛋白質的預測影響、ClinVar 分類以及可用家庭成員的訊號品質。大多數案例包含兒童和雙親的數據。

團隊要求模型提出最合理的分子解釋並展示其工作過程。研究人員隨後使用臨床實驗室用於分類基因變異的相同 ACMG/AMP 框架審查輸出結果。至少兩名團隊成員審查每個候選結果，分歧通過共識解決，模型的輸出從未被視為診斷。只有在合格專家審查證據、變異被分類為致病性或可能致病性、CLIA 認證實驗室確認，並且臨床團隊將結果告知家屬後，才算作診斷。

在分析未解案例之前，團隊在已確立診斷的案例上完善了工作流程。在 51 個包含各種罕見疾病的案例中，它在重複運行中恢復了 48 個案例的正確基因和變異。在 57 個神經肌肉案例中，工作流程在重複運行中返回了 45 個案例的正確診斷。在 15 個長讀取基因組案例中，它在每個案例中都命名了正確的基因，並在 12 個案例中命名了兩個致病等位基因。這些評估有助於提示詞開發，並顯示了專家審查仍然至關重要的地方。

該模型的自我報告置信分數與這些已解決案例的正確診斷一致：持續正確呼叫的平均最低分數為 85.6，不正確或未知呼叫的平均最低分數為 42.1。這些分數並非校準後的機率，團隊也未將其用作證據或臨床判斷的替代品。但它們有助於引導專家審閱者專注於最有希望的候選診斷。

團隊隨後將工作流程應用於四組先前未解的案例：患有神經發育疾病的兒童、患有罕見神經肌肉疾病的人、患有早期精神病的兒童和青少年，以及小兒科不明原因猝死案例。這些並非等待首次審查的新案例，許多案例已經過多個商業或機構管線的檢查，並由多學科團隊討論過。

在模型提出候選結果，專家完成審查和臨床確認後，醫師在 4.8% 的案例中確立了診斷。這個比率雖然不高，但在這個人群中卻意義重大，因為先前的專家審查未能解決這些案例。類似的再分析研究報告，在經過大量審查的案例中，診斷率僅有單位數的增長；較高的診斷率通常來自包含新案例或等待基因確認的已知疾病的研究。

在 18 個診斷中，有 7 個是「重新發現」：在當地研究工作流程之外確立的診斷，但未包含在團隊審查的記錄中。在幾個案例中，變異已在公共資料庫中列為致病性或可能致病性，這突顯了整合跨數據源資訊的操作挑戰。

在一個早期精神病案例中，模型推斷出基因組中的一個結構性變異，該變異未列在輸入數據中。它將 22 號染色體上的一系列低品質呼叫與兒童的心臟、免疫、神經發育和精神特徵聯繫起來，然後假設存在與迪喬治症候群相關的 22q11.2 缺失。這個假設的變異通過後續的基因組定序得到證實。

儘管提示詞要求一個單基因病因，但模型有時會提出兩個基因，以更好地解釋複雜的表現。LAMA2 和 FOXP1 的變異共同解釋了一個案例中的肌肉和神經發育特徵；另一個案例則有一個先前未被識別的雙基因解釋，涉及 TTN 和 SRPK3。

除了診斷之外，該模型還為一種稱為白斑症的疾病識別出可能的全新機制解釋。在一個神經發育案例中，模型突顯了一名白斑症患者 S1PR1 中 11 個胺基酸的缺失。S1PR1 編碼一種參與訊號傳導、免疫細胞移動和組織生物學的細胞表面受體。模型整合了證據，表明該缺失可能以改變受體結構和訊號傳導的方式，減少色素生成，同時也幫助免疫細胞在皮膚中持續存在。

所提出的 S1PR1-白斑症關聯需要額外的實驗驗證，但它說明了 AI 在將結構生物學、免疫學和臨床遺傳學中分散的發現轉化為具體、可檢測的假說方面的強大作用。團隊還在神經肌肉隊列中看到了可能的表型擴展。HSPB8 和 CDK13 中的有害變異與這些基因最著名的疾病並不完全匹配，這表明更廣泛的臨床譜系需要更多案例和實驗室工作來驗證。

這項研究表明，一個通用推理模型可以通過將表型、遺傳、變異註釋、數據品質模式和科學文獻結合到可審查的假說中，為回溯性基因組再分析做出貢獻。它也說明了定期再分析的重要性：有些答案只有在知識進步或零碎記錄匯集後才會浮現。這項研究並非證明患者、臨床醫生或客戶應使用 OpenAI 模型來診斷疾病或做出醫療決策。

它沒有描述或認可 OpenAI o3 Deep Research、ChatGPT 或任何其他 OpenAI 產品用於診斷的預期客戶用途。該模型沒有診斷任何參與者；醫師和其他合格的臨床專家通過既定的審查、檢測和臨床確認流程做出所有診斷。

該研究是回溯性的，隊列異質，審閱者對模型置信度並未盲化。研究人員沒有測量節省的時間、成本、臨床醫生工作量、假陽性工作量或護理變化。他們也沒有系統地評估其他形式的基因變異，例如結構變異、重複擴增、深內含子變化或鑲嵌現象。大型語言模型可能會誤讀上下文或產生經仔細檢查後不成立的合理解釋。

因此，每個結果都經過人工判斷和臨床確認。該模型擴大了搜索範圍並聚焦了隨後由人類主導的分析；它沒有決定應向家庭返回哪些資訊或診斷。這項研究使用了去識別化資訊，沒有在經批准的環境之外使用或傳輸任何受保護的健康資訊。更廣泛的臨床部署將需要對隱私、安全、可審計性和當地法規給予與所有醫療保健相同的關注。模型訪問不能取代定序基礎設施、基因諮詢、確認性檢測或專家判斷。

接下來，前瞻性、多中心研究應比較 LLM 輔助再分析與標準實踐在診斷率、候選時間、臨床醫生工作量、假陽性負擔、成本和對護理的影響。版本化提示詞、參考檢查、審計日誌和校準不確定性對於可重複性和安全性將很重要。此類研究仍需要合格的臨床醫生評估證據、訂購適當的檢測並做出任何診斷或治療決策。

這項研究使用了 OpenAI o3 Deep Research。較新的通用模型可以搜索和合成更多的科學材料，而專用系統，例如 GPT-Rosalind，則專為更深入的生命科學工作而設計，包括變異對蛋白質結構和功能的影響。這些功能未在此處進行測試，將需要自己的評估和訪問控制。