Anthropic 推出 Claude Fable 5：性能卓越，但資料政策與開發限制引發爭議

Anthropic 推出 Claude Fable 5，這是其新一代「Mythos 等級」模型，據稱其規模至少是 Opus 4.8 的兩倍。在 SpaceXai 交易後 34 天，以及原始 Mythos 發表後 63 天，這款模型現已向大眾開放，並與 Claude Tokyo 同步推出。

將研究模型推向通用可用性是一項令人難以置信的工程壯舉，其基準測試表現出色，但仍帶有一些值得注意的「星號」條款。例如，在最新的 FrontierCode Diamond 測試中，其性能從 13.4% 躍升至 29.3%。

官方部落格和系統卡片提供了大部分權威資訊，但別錯過 YouTube 影片展示其遊玩 Factorio 和 Pokemon 的能力（與 Claude Plays Pokemon 不同，這次僅使用視覺，沒有複雜的輔助系統）。影片還展示了它從未聽過音樂卻能生成 EDM 視覺化、建立 3D CAD 編輯器並進行列印等功能。API 定價也相當具吸引力，大約是 Opus 的兩倍。

這些「星號」條款源於 Fable 5 伴隨的兩項具爭議性變革：取消零資料保留（ZDR）和實施「受限自我改進」（RSI）抑制。關於 ZDR，Anthropic 要求所有 Mythos 等級模型（無論是第一方還是第三方介面）的流量都必須保留 30 天。

儘管他們承諾不會將這些資料用於訓練新的 Claude 模型或任何非安全相關目的，並實施了新的隱私保護措施，包括記錄所有人工存取資料並確保在幾乎所有情況下於 30 天後刪除，這仍引發了社群的擔憂。

RSI 抑制方面，鑑於近期模型加速自身發展的能力，Anthropic 實施了新的干預措施，限制 Claude 在針對前沿大型語言模型（LLM）開發請求方面的有效性。這包括建立預訓練管線、分散式訓練基礎設施或機器學習加速器設計等。

Anthropic 指出，使用 Claude 開發競爭模型已違反其服務條款，而透過這些安全措施來強制執行此限制，可避免加速那些最有可能違反條款的行為者。與網路安全、生物化學和蒸餾嘗試的干預措施不同，這些安全措施對使用者是不可見的。

Fable 5 不會退回到不同的模型，而是透過提示詞修改、引導向量或參數效率微調（PEFT）等方法來限制其有效性。Anthropic 估計這些干預措施不會影響絕大多數的程式編碼工作，預計僅影響約 0.03% 的流量，且集中在不到 0.1% 的組織中。

儘管絕大多數使用者不會受到這些限制的影響，但開放 AI 社群對此感到不滿，這點不難理解。批評者認為，這種「靜默」的效能降低在付費產品中不應存在，並且在機器學習研究中「不告知使用者就降低效能是令人震驚的敵意行為」。

一些研究人員將其視為針對開放研究和開源模型的反競爭行為，認為這是「實驗室開始拉起梯子」的表現，並呼籲「保護和滋養開源 AI」。他們諷刺地表示：「他們不是要暫停 AI 研究，而是要暫停你的 AI 研究。」

多位使用者擔心分類器邊界過於寬泛或容易出錯。有使用者指出「癌症」一詞被標記為生物安全風險，另一位則表示 Fable 無法回答「心臟有什麼作用？」。

生物學領域的使用者報告了帳戶上下文差異，例如在無痕模式下可以使用 Fable，但在正常模式下卻不行。還有使用者報告在簡單的工程提示詞上遭到拒絕，甚至連 PTX ISA 問題和推論最佳化查詢也被標記。

Anthropic 官方和第三方評估機構報告了 Fable 5 在多項基準測試中取得廣泛領先，尤其是在程式編碼和需要長期規劃的代理任務方面。例如，Fable 5 在 CursorBench 上創下 72.9% 的新紀錄，比之前的最佳成績高出 8 個百分點。

在 FrontierCode 上排名第一，並在 Terminal-Bench 2.1 上以 88.0% 的成績擊敗 GPT-5.5 達 4.6 個百分點。Artificial Analysis 將 Fable 5 列為其智慧指數的第一名，得分 64.9，領先 GPT-5.5 約 5 個百分點，並指出 Anthropic 佔據了前兩名。

在程式編碼方面，Fable 5 在 SWE-Bench Pro 上達到 80.3%，遠超 GPT-5.5 的 58.6%；在 FrontierCode Diamond 上，Mythos 5 達到 30.9%，而第二名僅為 13.4%。

此次發布不僅以原始評估為定義，工作流程變化和成本結構也同樣重要。Anthropic 員工和早期使用者反覆將 Fable 5 描述為適用於非常耗時、高難度任務的模型。

使用者從給予模型具體任務轉變為賦予其目標或責任。Anthropic 建議使用者預設為「極高/高」努力模式，並更新舊的 CLAUDE.md 指令，讓模型擁有更多判斷力。Anthropic 的開發者訊息強調多代理協調，Fable 可將任務委派給 Claude Managed Agents 中的小型模型。

多位測試者形容 Fable 5 速度較慢、消耗大量 token 且昂貴，但能力非凡。例如，有報告指出它在一天內完成了 Stripe 5000 萬行 Ruby 程式碼的遷移，這項工作原本需要整個團隊兩個多月才能完成。還有報告稱 Fable 發現了一個微妙的錯誤，並在某些情況下將速度提升了高達 1770%。

Fable 5 已迅速整合到 Cursor、Devin、Notion、Microsoft Foundry、GitHub Copilot App/CLI 等眾多生態系統平台中。這顯示了業界對其能力的快速認可與應用。

最大的爭議並非 Fable/Mythos 的強大與否，而是 Anthropic 決定「靜默」地降低其在某些前沿 AI 開發任務上的實用性。Anthropic 的系統卡片語言（經多位使用者揭露）指出，當 Fable 5 用於前沿 LLM 開發時，Anthropic 可能會透過提示詞修改、引導向量和 PEFT 來限制模型的有效性，且使用者不會收到通知。

這與網路安全和生物安全請求會透明地重新路由到 Opus 4.8 的情況不同，後者會明確告知使用者並以 Opus 計費。而前沿 LLM 開發請求則可能被靜默削弱，而非重新路由或拒絕。