Anthropic 為 Claude Fable 隱藏式安全措施致歉

Anthropic 為其新 AI 模型 Claude Fable 5 暗中設置隱藏式安全措施致歉，這些措施損害了研究人員和競爭對手利用其開發新系統的努力。該公司表示將改變做法，未來會更透明地揭露這些限制何時啟動，即使這意味著 Fable 將拒絕更多查詢。

Fable 是 Anthropic Mythos 系列 AI 系統中首個廣泛發布的模型，該公司數月來一直警告此系列模型過於危險，不適合公開發布。Anthropic 表示，他們已透過為 Fable 設置安全防護措施來解決部分風險，以防止其回應某些「高風險」查詢。

其中一個 Anthropic 聲明將限制 Fable 回應的領域是模型蒸餾（distillation），這是一種利用大型 AI 模型的輸出訓練小型 AI 模型的技術。

在 Fable 的系統卡（AI 開發者為解釋系統運作方式而發布的公開文件）中，Anthropic 表示，他們會直接修改並降低模型回答的品質，以處理他們認為是蒸餾嘗試的查詢。使用者不會收到觸發安全措施的通知，也不會被告知回答已被更改。

Anthropic 表示，他們現在正在改變對蒸餾問題的處理方式：該公司在 X 平台上發文指出，相關查詢現在將改為使用 Anthropic 先前的旗艦模型 Claude Opus 4.8。Anthropic 也將明確告知使用者：「每次發生這種情況時，您都會看到此通知。」

這與 Fable 處理其他高風險領域查詢的方式類似。當生物學、化學和網路安全等領域觸發安全功能時，查詢會被導向 Opus 4.8，除非它們根據公司更廣泛的安全規則（例如涵蓋藥物、武器或其他違禁內容的規則）被完全阻止。在某些情況下，特別是生物學領域，安全措施校準得過於寬泛，導致 Fable 幾乎無法用於基本查詢，Anthropic 在給 The Verge 的評論中也承認了這一點。

Anthropic 寫道：「可見的安全措施可能被探測，因此它們必須穩健，這需要時間才能完善。隱形安全措施可以更精準地針對特定目標，讓我們能夠快速發布且誤報極少。我們因此選擇了隱形安全措施——但這是一個錯誤的權衡。您應該了解我們設置的安全措施及其原因。對於未能取得平衡，我們深感抱歉。」

這項改變是在 AI 研究社群強烈反彈之後發生的，此前 Anthropic 決定默默限制涉嫌試圖將 Fable 蒸餾成競爭模型的用戶——批評者警告，這種安全措施也可能影響試圖評估前沿模型的第三方。在系統卡中，Anthropic 表示，新模型加速 AI 開發的能力證明了針對這些請求是合理的，並指出「使用 Claude 開發競爭模型已經違反了我們的服務條款」。

Anthropic 此前曾指責 DeepSeek 等中國競爭對手以「工業規模」不公平地蒸餾其模型。