OpenAI AI 化學家近乎自主，顯著提升藥物化學反應效率

OpenAI 在科學領域的工作源於一個簡單的信念：先進的 AI 可以成為科學家的強大夥伴，幫助他們探索更多想法、連結遙遠的概念、設計更好的實驗，並加速造福人類的發現。我們已經分享了模型在數學領域（包括單位距離問題）、理論物理學（膠子振幅的新成果）以及生物學（GPT-5 協助降低自動化實驗室中無細胞蛋白質合成的成本）做出新穎貢獻的早期範例。

我們也推出了 GPT-Rosalind，一個專為支援生命科學研究和藥物開發工作流程而設計的模型。

這個專案將此軌跡延伸到藥物化學領域，在該領域，進展不能僅憑推理來衡量。一個假設必須在實驗室中與真實分子、儀器和實驗雜訊一起運作。我們與 Molecule.one 合作，將 GPT-5.4 連接到 Maria——一個具代理能力的化學 AI，並整合了高通量實驗室以進行自主研究——並給予它一個開放式目標：改進幾種重要反應類別之一。該系統產生了研究提案、設計並執行實驗、分析實驗數據，並提出了後續實驗。

人類仍然參與其中，負責設計引導和評分提示詞，並選擇要測試的提案。他們還對實驗計畫進行了有限的修正，協助基本的實驗室操作，並獨立驗證了最終結果。最有前景的提案 OAI-M1-03 專注於 Chan-Lam 偶合反應的一個困難但有用的版本，化學家使用此反應來形成碳氮鍵。

從改進製程化學中 Chan-Lam 偶合反應的開放式目標開始，GPT-5.4 獨立識別出伯磺醯胺作為一個具有挑戰性且高價值的受質類別，並建議使用溫和氧化劑（包括 TEMPO）可以改善反應。在 Maria Lab 的兩個實驗週期中，這個想法產生了顯著的改進。

在最佳化條件下，88% 的硼酸和 83% 的磺醯胺的測量產率有所提高。平均產率從 16.6% 上升到 25.2%，產率超過 30% 的反應比例從 15.6% 增加到 37.5%。

人類化學家隨後在實驗室規模重複了代表性反應。這些實驗證實了微升規模的結果，顯示 14 對受質中有 11 對的產率更高，在大多數情況下增加了兩倍以上。這很重要，因為藥物化學家需要的反應不僅在微升篩選實驗中有效，而且在藥物開發期間使用的實際實驗室工作流程中也有效。

藥物化學領域的這些改進尤其令人興奮，因為合成往往是藥物開發的主要瓶頸：科學家只能測試他們能夠製造或以其他方式獲得的分子。磺醯胺基團出現在廣泛治療領域的藥物中，包括抗癌藥物、抗菌劑和利尿劑，然而伯磺醯胺與硼酸的 Chan-Lam 偶合反應歷史上產率一直很低。使這種形式的反應更可靠，可以為藥物化學家提供更廣泛、更實用的方法來生產和探索潛在有用的分子。

儘管這仍是一個早期結果，但它提供了我們正在努力的更廣泛方向的另一個具體範例：AI 系統可以成為科學家在大部分研究循環中的寶貴夥伴。該模型審查了文獻、提出了一個出乎意料的想法、協助設計和分析實驗，並得出了一個人類化學家可以評估的科學發現。

Maria Lab 是 Molecule.one 專門的高通量實驗室，在 OAI-M1-03 專案中執行了 10,080 個反應。有機化學是所有小分子藥物以及農業、電子和材料科學產品的基礎。當反應能夠在許多不同的起始材料中可靠地形成相同類型的化學鍵時，它就特別有用。

當反應產生低產率或過多的不必要副產物時，化學家可能不得不放棄原本有前景的分子，或者花費大量時間開發不同的途徑。這使得合成成為藥物開發的主要瓶頸：科學家通常只能測試他們能夠製造或以其他方式獲得的分子。

Chan-Lam 偶合反應在藥物化學中很有用，因為它形成碳氮鍵，這在藥物中很常見。然而，該反應並非對所有類別的分子都同樣有效。特別是，伯磺醯胺與硼酸的偶合反應歷史上產率一直很低。磺醯胺是藥物中一個重要的分子家族，用於腫瘤學和傳染病。使這種反應更可靠，可以為藥物化學家提供更廣泛、更實用的方法來生產和探索潛在有用的分子。

這個組合系統配對了互補的能力。與 Maria AI 合作的科學家撰寫的提示詞，透過一個框架與 GPT-5.4 結合使用，以生成和排序數千個可能的研究提案。人類化學家審查了系統評分最高的少數提案，並選擇了四個進行實驗室測試。Maria AI 隨後將選定的高階計畫轉化為詳細的實驗室指令，執行了數千個高通量實驗，分析了原始數據，並將結構化結果返回給 GPT-5.4。

四個選定提案中的一個，OAI-M1-03，建議使用溫和氧化劑（例如 TEMPO）來改善磺醯胺合成中 Chan-Lam 反應的性能。化學家們發現這個建議既令人驚訝又有趣。我們在這篇部落格文章和論文中分享了 OAI-M1-03 的詳細發現。最終的研究提案隨後由 Maria 用於生成實驗網格，並由人類進行了輕微修正。

最大的人為修正是在比較時避免使用二甲基亞碸（DMSO）作為溶劑，因為化學家擔心它可能與較強的氧化劑發生反應。

整個過程歷時三個月，從 3 月 4 日的第一個提示詞到 6 月 4 日與獨立專家分享 OAI-M1-03 的結果。我們將此工作流程描述為近乎自主，而非完全自主，因為人類化學家在整個過程中仍然做出了重要決策。模型提出了關鍵的研究想法，而人類化學家則提供了高階的指導和判斷，修正了實驗細節，協助準備實驗室耗材和試劑，並手動重複了關鍵實驗。

OAI-M1-03 確定 TEMPO 是此處研究的伯磺醯胺 Chan-Lam 偶合反應的有用添加劑。在最佳化條件下，反應在兩個方面得到改善：平均產率提高，並且更多受質組合達到了實際有用的產率。在兩個週期中，Maria 總共執行了 10,080 個反應——這比一個化學家每天執行三個反應十年所能完成的還要多。

這種規模很重要，因為當化學結果僅在少數範例上進行測試時，可能會產生誤導。一個反應在某對起始材料上可能看起來很有前景，但在更廣泛的分子集合中卻可能失敗。數千個反應使得在十種測試的氧化劑中識別出 TEMPO，並觀察其在不同組合中重複出現的效果及其局限性成為可能。

在分析第一輪數據後，系統提出了一個更集中的第二輪實驗，以測試後續假設。一個有用的後續發現是，TEMPO 可以被便宜得多的類似物 4-羥基-TEMPO 取代，而性能損失很小。該結果也經受住了 Maria Lab 微升規模篩選格式之外的考驗。人類化學家在實驗室規模手動重複了代表性反應，觀察到 14 對受質中有 11 對的產率增加；其中八對的增加超過兩倍。

這種重複驗證很重要，因為非常小規模的實驗有時可能會引入在較大規模下消失的假象。在科學期刊發表研究之前，實驗室規模的驗證也是慣例。

四位外部化學專家審查了描述 OAI-M1-03 的預印本。他們的評估支持我們的觀點，即該結果是新穎的，值得與科學界分享。更強的考驗將隨之而來：獨立實驗室是否能夠重現該結果，以及化學家是否發現它在更廣泛的分子範圍內有用。在三個月期間，GPT-5.4 生成並由 Maria 測試的其他三個提案中，OAI-M1-02 和 OAI-M1-04 在 Maria Lab 中得到了實驗證明，而 OAI-M1-01 則被推翻。對這些結果的分析仍在進行中。

這項工作表明模型可以在有機化學中做出有用的貢獻。它不僅僅是總結文獻或建議一次性實驗：它提出了一個具體且令人驚訝的假設，並將其呈報給人類審查，設計實驗，解釋實驗數據，並設計後續實驗。這項工作並未表明 AI 可以獨立地從頭到尾執行化學研究計畫。人類判斷仍然至關重要，並且工作流程依賴於專業的高通量基礎設施。它也沒有證明該方法將推廣到其他偶合反應、其他受質類別或製造條件。

產率估計來自高通量平台，實驗室規模驗證涵蓋了 14 對代表性受質。需要更多工作來表徵反應機制、定義受質範圍、測量不同實驗室條件下的性能，並獨立重現結果。化學能力需要謹慎處理，因為同樣可以支援醫學和材料科學的工具也可能被濫用。我們特意將這項工作的範圍限定在一個合法的藥物化學問題：改進用於製造類藥物分子的已知偶合反應。

實驗不涉及毒素、化學武器或設計有害化合物的請求。這些結果不應被解讀為系統可以幫助這些有害應用的證據。該專案沒有測試或證明這一點。

我們透過我們的「準備框架」評估和緩解來自先進模型能力的新興風險，包括與化學和生物領域相關的風險。這項工作中使用的模型已經接受了英國 AI 安全研究所的相關評估，並且該系統被設計為拒絕專注於有害應用的請求。實驗工作流程增加了另一層控制：人類化學家選擇哪些提案進入實驗室，審查實驗計畫，並保留對實體基礎設施的控制權。

我們認為這是研究 AI 在實驗化學中潛力的負責任方式：選擇一個具有明確科學價值的問題空間，將模型層級的安全措施與專家監督相結合，並透過受限的實體實驗評估系統。隨著這些能力的提高，我們將繼續評估新興風險，加強安全措施，並明確說明結果的含義和不含義。

眼前的下一步是科學性的：測試更廣泛的起始材料，調查添加劑為何改善反應，繪製效果有效和失效的範圍，並支援獨立重現。總體而言，這些研究將確定該方法可以應用於多廣泛的範圍，以及它在實際藥物化學工作流程中的實用性。

我們的長期目標是使 AI 系統成為可靠的科學夥伴，幫助研究人員生成假設、設計實驗、解釋結果並決定下一步測試什麼，同時始終以專家判斷、可靠測量和強大安全措施為基礎。