AI 新聞繁中

**Anthropic 透過 BioMysteryBench 基準測試，宣稱 Claude 能以專家水準解決真實的生物資訊學問題。儘管結果令人鼓舞，但仍伴隨著重要的注意事項。**衡量 AI 模型在生物研究中的實際表現是一項艱鉅的任務。根據 Anthropic 的說法，現有的基準測試都存在盲點：例如 MMLU-Pro 或 GPQA 等知識測驗，僅檢查事實知識，而非實際的研究技能。而 BixBench 這類使用真實資料集的基準測試，則根據個別科學家的結論來評估模型，這些結論本身是主觀的，並受方法選擇的影響。至於 SciGym 等模擬實驗室環境，雖然有明確答案，卻無法捕捉真實生物資料的混亂性。正因如此，Anthropic 開發了 BioMysteryBench：這是一個包含 99 道題目的基準測試，涵蓋多個生物資訊學領域，由專家撰寫，並基於真實且帶有雜訊的資料集。其關鍵設計在於，答案並非來自科學解釋，而是源於資料中可控制、客觀可驗證的特性或獨立驗證的後設資料。每位題目作者都必須提交一份驗證筆記本，證明資料中確實存在該訊號。這種方法也使得提出人類可能無法解決的問題成為可能。典型的任務包括識別單細胞 RNA 資料集來自哪個器官，或找出實驗樣本中哪個基因被剔除。Claude 會獲得一個包含生物資訊工具的容器，可以存取 NCBI 和 Ensembl 等資料庫，並完全自由選擇自己的分析方法。只有最終答案會被評分，而非其達成答案的途徑。## 可解決問題表現亮眼，但艱難任務仍顯脆弱Anthropic 將任務分為兩組：76 道被認為是「人類可解決」的問題，因為至少有一位（最多五位）專家找到了正確答案。另外 23 道任務則難倒了所有專家。有四道最初規劃的問題因表述有缺陷而不得不移除。對於剩餘的 23 道問題，Anthropic 承認尚不清楚它們是根本上無法解決，還是僅僅極其困難。更大或不同組成的專家小組是否能解決這些問題，也仍是一個懸而未決的疑問。根據 Anthropic 的說法，在人類可解決的問題上，Claude 現在的表現已與人類專家相當。在人類可解決的任務集上，較新的 Claude 模型在生物學任務上表現顯著提升：Mythos Preview 達到 82.6% 的準確度，而 Haiku 4.5 則維持在 36.8%。| 圖片：Anthropic在那些連選定的專家都無法解決的艱難問題上，Claude Mythos Preview 取得了 30% 的成功率。在 BioMysteryBench 最艱難的任務上，整體成功率仍然偏低：Mythos Preview 取得 29.6%，而 Haiku 4.5 僅有 5.2%。| 圖片：Anthropic然而，Anthropic 讓 Claude Mythos Preview 對自身進行的一致性分析，描繪出更細緻的樣貌。每項任務都嘗試了五次。在可解決的問題上，Claude 幾乎總是五次嘗試都正確，或全部失敗。而在艱難問題上，成功通常只出現在五次嘗試中的一兩次。這表明模型是偶然找到幸運的解決路徑，而非遵循可重現的策略。Anthropic 指出，有兩種策略讓 Claude 有別於人類測試者：模型利用廣泛的知識庫，並將資訊與其正在進行的分析直接結合。當不確定時，Claude 還會疊加多種方法，並選擇不同方法趨於一致的答案。獨立驗證來自 CompBioBench，這是一個由 Genentech 和 Roche 同步開發、設計相似的基準測試，並顯示出可比的結果。BioMysteryBench 已在 Hugging Face 上開放。

Anthropic 推出 BioMysteryBench：Claude 生物資訊能力媲美人類專家