**Anthropic 透過 BioMysteryBench 基準測試,宣稱 Claude 能以專家水準解決真實的生物資訊學問題。儘管結果令人鼓舞,但仍伴隨著重要的注意事項。**衡量 AI 模型在生物研究中的實際表現是一項艱鉅的任務。根據 Anthropic 的說法,現有的基準測試都存在盲點:例如 MMLU-Pro 或 GPQA 等知識測驗,僅檢查事實知識,而非實際的研究技能。而 BixBench 這類使用真實資料集的基準測試,則根據個別科學家的結論來評估模型,這些結論本身是主觀的,並受方法選擇的影響。至於 SciGym 等模擬實驗室環境,雖然有明確答案,卻無法捕捉真實生物資料的混亂性。正因如此,Anthropic 開發了 BioMysteryBench:這是一個包含 99 道題目的基準測試,涵蓋多個生物資訊學領域,由專家撰寫,並基於真實且帶有雜訊的資料集。其關鍵設計在於,答案並非來自科學解釋,而是源於資料中可控制、客觀可驗證的特性或獨立驗證的後設資料。每位題目作者都必須提交一份驗證筆記本,證明資料中確實存在該訊號。這種方法也使得提出人類可能無法解決的問題成為可能。典型的任務包括識別單細胞 RNA 資料集來自哪個器官,或找出實驗樣本中哪個基因被剔除。Claude 會獲得一個包含生物資訊工具的容器,可以存取 NCBI 和 Ensembl 等資料庫,並完全自由選擇自己的分析方法。只有最終答案會被評分,而非其達成答案的途徑。## 可解決問題表現亮眼,但艱難任務仍顯脆弱Anthropic 將任務分為兩組:76 道被認為是「人類可解決」的問題,因為至少有一位(最多五位)專家找到了正確答案。另外 23 道任務則難倒了所有專家。有四道最初規劃的問題因表述有缺陷而不得不移除。對於剩餘的 23 道問題,Anthropic 承認尚不清楚它們是根本上無法解決,還是僅僅極其困難。更大或不同組成的專家小組是否能解決這些問題,也仍是一個懸而未決的疑問。根據 Anthropic 的說法,在人類可解決的問題上,Claude 現在的表現已與人類專家相當。在人類可解決的任務集上,較新的 Claude 模型在生物學任務上表現顯著提升:Mythos Preview 達到 82.6% 的準確度,而 Haiku 4.5 則維持在 36.8%。| 圖片:Anthropic在那些連選定的專家都無法解決的艱難問題上,Claude Mythos Preview 取得了 30% 的成功率。在 BioMysteryBench 最艱難的任務上,整體成功率仍然偏低:Mythos Preview 取得 29.6%,而 Haiku 4.5 僅有 5.2%。| 圖片:Anthropic然而,Anthropic 讓 Claude Mythos Preview 對自身進行的一致性分析,描繪出更細緻的樣貌。每項任務都嘗試了五次。在可解決的問題上,Claude 幾乎總是五次嘗試都正確,或全部失敗。而在艱難問題上,成功通常只出現在五次嘗試中的一兩次。這表明模型是偶然找到幸運的解決路徑,而非遵循可重現的策略。Anthropic 指出,有兩種策略讓 Claude 有別於人類測試者:模型利用廣泛的知識庫,並將資訊與其正在進行的分析直接結合。當不確定時,Claude 還會疊加多種方法,並選擇不同方法趨於一致的答案。獨立驗證來自 CompBioBench,這是一個由 Genentech 和 Roche 同步開發、設計相似的基準測試,並顯示出可比的結果。BioMysteryBench 已在 Hugging Face 上開放。