Anthropic 週二發布了其最新模型 Fable,宣稱它是其強大且備受矚目的網路安全模型 Mythos 的公開限制版本。

然而,並非所有人都對這些限制感到滿意,許多網路安全研究人員和專業人士已在網路上表達了不滿。

IBM X-Force 的知名安全研究員 Valentina “Chompie” Palmiotti 表示:「[Fable] 拒絕任何可能與網路安全沾邊的請求,即使是像閱讀部落格文章這樣無害的任務也不行。」

當提示詞觸發其安全防護措施時,Fable 會暫停聊天並顯示其「安全措施已將此訊息標記為網路安全或生物學主題」。

這些安全防護措施旨在限制 Fable 被用於開發惡意軟體或破壞軟體的風險,這是 Anthropic 長期以來的擔憂。對生物學的限制則源於對開發生物武器的類似擔憂。

當這家 AI 巨頭於四月發布 Mythos 時,它將模型限制給少數公司和組織使用,這項計畫被稱為 Project Glasswing,旨在將模型部署到保護關鍵軟體和基礎設施。上週,Anthropic 將 Mythos 的存取權限擴展到 15 個國家的數百個組織。

儘管出於善意,許多網路安全專家仍然對這些雜亂無章的限制感到不滿。網路安全資深人士 Matt Suiche 告訴 TechCrunch:「如果你要求它編寫安全程式碼,它會認為這是網路安全相關工作,而不是軟體工程的最佳實踐,然後你的請求就會被降級。」

如果 Fable 觸發安全防護措施,它會退回到 Claude Opus 4.8。「這似乎是基於關鍵字,任何與『網路安全』詞彙相關的內容都會觸發安全防護措施。」

Tolmo(一家 AI 網路安全新創公司)的技術人員 Suiche 表示:「但這是可以理解的,因為我們仍處於早期階段,他們仍在調整安全防護措施。我確信隨著 Anthropic 和其他前沿模型公司與當前新一代網路安全公司的更多合作,這些護欄會隨著時間演進。」他補充說:「在發布此類產品時,寧可捕捉到更多人也不要漏掉,並隨著時間逐步放寬安全防護措施。」

另一位研究人員在 X 上抱怨說,「即使是要求程式碼審查」也會觸發 Fable 的安全防護措施。

Anthropic 未立即回應置評請求。

除了模型內部的安全防護措施外,Anthropic 還要求網路安全專業人士申請「網路驗證計畫」(Cyber Verification Program)。如果獲得批准,申請者在使用 Claude 進行網路安全工作時將受到較少限制。OpenAI 也有一個類似的計畫,稱為「網路信任存取」(Trusted Access for Cyber)。