代理式 AI 系統在執行科學任務方面的能力日益增強。然而,它們對生命科學研究人員的實用性,取決於它們處理真實研究複雜性的能力。
真實研究很少像單一的事實回憶問題或清晰的預測問題。研究人員需要解讀不完整的證據、協調衝突的結果、設計困難的實驗、排除檢測故障、評估轉化風險,並在不確定性下決定下一步行動。
現有的基準測試未能完全捕捉這些能力。許多生命科學評估側重於狹窄的領域或獨立的技能,導致問題格式結構化且答案清晰。儘管這些評估有其價值,但它們往往無法真正評估模型是否能在更廣泛的研究級工作中做出貢獻。
我們設計 LifeSciBench 旨在彌補這一差距。每個任務都基於具有博士級訓練,並在生物科技和製藥環境中擁有藥物開發計畫直接經驗的執業生命科學家的判斷。
LifeSciBench 包含 750 個由專家編寫的任務,涵蓋七種工作流程和七個生物學領域。它擁有 1,062 個任務資料、173 位科學家貢獻者、19,020 個評分標準和 453 位專家審閱者。
LifeSciBench 衡量的是 AI 系統是否能支援真實的生命科學研究任務,而不僅僅是回答生物學問題。為了定義基準分類法,我們調查了執業生命科學家在應用研究環境中最常使用的工作流程。
然後,我們將他們的回應歸納為七個重複出現的類別:證據處理、分析、設計與優化、科學推理、驗證與操作、轉化和科學溝通。每個任務都像科學家可能給知識淵博的合作者的請求一樣。
它包含科學提示詞、任何相關背景或資料,以及自由回答。專家編寫的評分標準評估模型是否能針對特定問題產生正確的答案,並具備科學家所期望的詳細程度、論證、注意事項和格式。
LifeSciBench 在評估科學推理的同時,也評估了真實世界科學應用所需的較不明確的實用技能。其任務要求模型解決真實的研究問題:解讀證據、做出基於領域的判斷,以及溝通對專家審閱者有用的結論。許多任務還要求模型處理不確定性,並根據支援資料檔案進行推理,而不僅僅依賴提示文字。
該基準旨在反映生命科學工作的複雜性。總體而言,79% 的任務需要多個推理或決策步驟,平均每個任務有四個步驟。LifeSciBench 包含 1,062 個附加資料,涵蓋圖表、PDF 文件、表格、序列檔案、結構或化學檔案以及網路參考資料。超過一半的任務(53%)要求模型解讀或綜合至少一個資料中的資訊。
這些任務由 173 位來自不同生命科學學科的專家科學家創建。每位科學家都擁有博士級訓練和生物科技或製藥產業經驗。任務在被接受前可能經歷多個修訂週期,沒有固定輪數上限;被接受的任務平均經歷了六個自主自動審查週期,並完成了至少兩輪專家審查。
審查的依據是可驗證的正確答案或強烈的專家共識,相關領域的審閱者之間至少有 90% 的一致性。這個過程有助於確保被接受的任務具有科學依據、足夠清晰以便評分,並能代表應用研究。
LifeSciBench 任務採用詳細、針對特定任務的評分標準進行評分,該標準將預期回應分解為具體的科學主張、計算、決策、論證等。在整個基準中,專家開發的評分標準包含 19,020 個評分標準(平均每個任務 25 個),用於評估科學正確性和對研究決策的實用性。
這種設計反映了科學工作在實踐中是如何被評估的:許多生命科學任務不能僅憑最終答案來評分。一個回應可能達到正確的高層次結論,但如果它忽略了關鍵的檢測限制或未能主動提出高度重要的生物學細微之處,仍可能被判斷為不完整。
反之,即使部分回應未能完全解決任務,也可能包含高品質的推理。這些細緻的評分標準捕捉了這種細微之處。LifeSciBench 不僅評估最終答案的準確性,還評估模型以科學上有效且操作上實用的方式得出答案的能力。
例如,在一個從論文、圖表、表格和實驗記錄中提取、協調和審核科學證據的任務中,候選回應的總結可能是:「如目前所呈現,此套件不足以支持基於微型肌萎縮蛋白表達作為合理可能預測臨床益處的替代終點,進行加速批准。持懷疑態度的 FDA 審查員可能會認為生物標記、功能、持久性、安全性及普遍性證據實質上缺乏支持。」
監管結論則指出:「該套件可能顯示生物活性,但尚未證明所測量的微型肌萎縮蛋白表達是合理可能預測臨床益處的可靠替代指標。主要差距在於檢測特異性、無效的定量標準、可能的逆轉纖維混淆、缺乏隨機對照、年齡相關的 NSAA 混淆、不確定的持久性以及未解決的安全/普遍性問題。
為彌補這些差距,該計畫需要一個受控、按年齡分層的臨床設計,包含轉基因特異性表達檢測、正交蛋白定量、組織成分控制、縱向持久性數據、針對截短構建體的機制性功能檢測,以及更強大的安全監測,特別是肝臟和心臟方面。」
我們透過獨立專家審查驗證了 LifeSciBench。回饋來自 453 位未參與任務編寫的審閱者。這些審閱者中,97% 擁有博士或同等學位,平均有 12 年的領域經驗和 14 篇同行評審出版物。
