Anthropic 發表 Claude Fable 5 模型，為防惡意使用限制討論網路安全、生物化學等敏感議題

Anthropic 週二公開發布了 Claude Fable 5，這是其首個「Mythos 等級」模型，據稱其整體能力超越了先前的 Opus 模型。然而，該模型在發布時即搭載了安全防護措施，旨在阻止其回答有關網路安全、生物學和化學等主題的查詢，因為該公司曾公開擔憂這些主題可能「助長」惡意行為者。

Anthropic 表示，Fable 5 採用與 Mythos 5「相同的底層模型」，後者在經過數月的「Mythos 預覽」期後，於今日僅向一小群經由現有 Project Glasswing 評估為值得信賴的「網路防禦者」開放。然而，與 Mythos 5 不同的是，公開可用的 Fable 5 被設計為將某些敏感主題的查詢轉導至較早的 Claude Opus 4.8 模型，並在發生這種情況時向使用者發出警告。

在 Fable 5 聲稱的眾多基準測試改進中，與網路安全相關的改進尤其顯著。

Anthropic 表示，這些安全防護措施的調校「比理想情況更嚴格」，這意味著系統偶爾可能會拒絕「無害的請求」，他們承認這可能會讓一般使用者感到沮喪。但 Anthropic 稱，在測試中，此類誤報在所有會話中佔比不到百分之五，而且為了避免 Mythos 可能協助惡意行為者「造成他們無法從其他來源獲得的嚴重危害」，這些犧牲是值得的。

Fable 5 基於主題的安全防護措施圍繞著一套分類系統構建，旨在廣泛檢測被禁止的提示詞主題以及任何潛在的越獄嘗試。Anthropic 表示，在超過 1,000 小時的紅隊測試和錯誤獎勵計畫中，外部團隊未能找到 Fable 5 的任何通用越獄方法。Anthropic 還指出，新模型在抵禦自動化越獄嘗試方面，比之前的 Claude Opus 模型表現出更高的抵抗力。

該公司表示，他們特別擔心 Mythos 5 執行「代理式駭客攻擊」的能力，即以比早期模型更強大的能力執行多步驟網路攻擊。然而，英國 AI 安全研究所近幾個月的測試發現，Mythos 預覽版在 Capture the Flag 挑戰套件中的表現與 OpenAI 的 GPT-5.5 相似，這表明 Mythos 的性能並非「特定於某個模型的突破」。