Anthropic 為其新 AI 模型 Claude Fable 5 暗中設置隱藏式安全措施致歉,這些措施損害了研究人員和競爭對手利用其開發新系統的努力。該公司表示將改變做法,未來會更透明地揭露這些限制何時啟動,即使這意味著 Fable 將拒絕更多查詢。
Fable 是 Anthropic Mythos 系列 AI 系統中首個廣泛發布的模型,該公司數月來一直警告此系列模型過於危險,不適合公開發布。Anthropic 表示,他們已透過為 Fable 設置安全防護措施來解決部分風險,以防止其回應某些「高風險」查詢。
其中一個 Anthropic 聲明將限制 Fable 回應的領域是模型蒸餾(distillation),這是一種利用大型 AI 模型的輸出訓練小型 AI 模型的技術。
在 Fable 的系統卡(AI 開發者為解釋系統運作方式而發布的公開文件)中,Anthropic 表示,他們會直接修改並降低模型回答的品質,以處理他們認為是蒸餾嘗試的查詢。使用者不會收到觸發安全措施的通知,也不會被告知回答已被更改。
Anthropic 表示,他們現在正在改變對蒸餾問題的處理方式:該公司在 X 平台上發文指出,相關查詢現在將改為使用 Anthropic 先前的旗艦模型 Claude Opus 4.8。Anthropic 也將明確告知使用者:「每次發生這種情況時,您都會看到此通知。」
這與 Fable 處理其他高風險領域查詢的方式類似。當生物學、化學和網路安全等領域觸發安全功能時,查詢會被導向 Opus 4.8,除非它們根據公司更廣泛的安全規則(例如涵蓋藥物、武器或其他違禁內容的規則)被完全阻止。在某些情況下,特別是生物學領域,安全措施校準得過於寬泛,導致 Fable 幾乎無法用於基本查詢,Anthropic 在給 The Verge 的評論中也承認了這一點。
Anthropic 寫道:「可見的安全措施可能被探測,因此它們必須穩健,這需要時間才能完善。隱形安全措施可以更精準地針對特定目標,讓我們能夠快速發布且誤報極少。我們因此選擇了隱形安全措施——但這是一個錯誤的權衡。您應該了解我們設置的安全措施及其原因。對於未能取得平衡,我們深感抱歉。」
這項改變是在 AI 研究社群強烈反彈之後發生的,此前 Anthropic 決定默默限制涉嫌試圖將 Fable 蒸餾成競爭模型的用戶——批評者警告,這種安全措施也可能影響試圖評估前沿模型的第三方。在系統卡中,Anthropic 表示,新模型加速 AI 開發的能力證明了針對這些請求是合理的,並指出「使用 Claude 開發競爭模型已經違反了我們的服務條款」。
Anthropic 此前曾指責 DeepSeek 等中國競爭對手以「工業規模」不公平地蒸餾其模型。
