Anthropic 週二公開發布了 Claude Fable 5,這是其首個「Mythos 等級」模型,據稱其整體能力超越了先前的 Opus 模型。然而,該模型在發布時即搭載了安全防護措施,旨在阻止其回答有關網路安全、生物學和化學等主題的查詢,因為該公司曾公開擔憂這些主題可能「助長」惡意行為者。
Anthropic 表示,Fable 5 採用與 Mythos 5「相同的底層模型」,後者在經過數月的「Mythos 預覽」期後,於今日僅向一小群經由現有 Project Glasswing 評估為值得信賴的「網路防禦者」開放。然而,與 Mythos 5 不同的是,公開可用的 Fable 5 被設計為將某些敏感主題的查詢轉導至較早的 Claude Opus 4.8 模型,並在發生這種情況時向使用者發出警告。
在 Fable 5 聲稱的眾多基準測試改進中,與網路安全相關的改進尤其顯著。
Anthropic 表示,這些安全防護措施的調校「比理想情況更嚴格」,這意味著系統偶爾可能會拒絕「無害的請求」,他們承認這可能會讓一般使用者感到沮喪。但 Anthropic 稱,在測試中,此類誤報在所有會話中佔比不到百分之五,而且為了避免 Mythos 可能協助惡意行為者「造成他們無法從其他來源獲得的嚴重危害」,這些犧牲是值得的。
Fable 5 基於主題的安全防護措施圍繞著一套分類系統構建,旨在廣泛檢測被禁止的提示詞主題以及任何潛在的越獄嘗試。Anthropic 表示,在超過 1,000 小時的紅隊測試和錯誤獎勵計畫中,外部團隊未能找到 Fable 5 的任何通用越獄方法。Anthropic 還指出,新模型在抵禦自動化越獄嘗試方面,比之前的 Claude Opus 模型表現出更高的抵抗力。
該公司表示,他們特別擔心 Mythos 5 執行「代理式駭客攻擊」的能力,即以比早期模型更強大的能力執行多步驟網路攻擊。然而,英國 AI 安全研究所近幾個月的測試發現,Mythos 預覽版在 Capture the Flag 挑戰套件中的表現與 OpenAI 的 GPT-5.5 相似,這表明 Mythos 的性能並非「特定於某個模型的突破」。
