資安研究員對 Anthropic Fable 的安全防護措施感到不滿

Anthropic 週二發布了其最新模型 Fable，宣稱它是其強大且備受矚目的網路安全模型 Mythos 的公開限制版本。

然而，並非所有人都對這些限制感到滿意，許多網路安全研究人員和專業人士已在網路上表達了不滿。

IBM X-Force 的知名安全研究員 Valentina “Chompie” Palmiotti 表示：「[Fable] 拒絕任何可能與網路安全沾邊的請求，即使是像閱讀部落格文章這樣無害的任務也不行。」

當提示詞觸發其安全防護措施時，Fable 會暫停聊天並顯示其「安全措施已將此訊息標記為網路安全或生物學主題」。

這些安全防護措施旨在限制 Fable 被用於開發惡意軟體或破壞軟體的風險，這是 Anthropic 長期以來的擔憂。對生物學的限制則源於對開發生物武器的類似擔憂。

當這家 AI 巨頭於四月發布 Mythos 時，它將模型限制給少數公司和組織使用，這項計畫被稱為 Project Glasswing，旨在將模型部署到保護關鍵軟體和基礎設施。上週，Anthropic 將 Mythos 的存取權限擴展到 15 個國家的數百個組織。

儘管出於善意，許多網路安全專家仍然對這些雜亂無章的限制感到不滿。網路安全資深人士 Matt Suiche 告訴 TechCrunch：「如果你要求它編寫安全程式碼，它會認為這是網路安全相關工作，而不是軟體工程的最佳實踐，然後你的請求就會被降級。」

如果 Fable 觸發安全防護措施，它會退回到 Claude Opus 4.8。「這似乎是基於關鍵字，任何與『網路安全』詞彙相關的內容都會觸發安全防護措施。」

Tolmo（一家 AI 網路安全新創公司）的技術人員 Suiche 表示：「但這是可以理解的，因為我們仍處於早期階段，他們仍在調整安全防護措施。我確信隨著 Anthropic 和其他前沿模型公司與當前新一代網路安全公司的更多合作，這些護欄會隨著時間演進。」他補充說：「在發布此類產品時，寧可捕捉到更多人也不要漏掉，並隨著時間逐步放寬安全防護措施。」

另一位研究人員在 X 上抱怨說，「即使是要求程式碼審查」也會觸發 Fable 的安全防護措施。

Anthropic 未立即回應置評請求。

除了模型內部的安全防護措施外，Anthropic 還要求網路安全專業人士申請「網路驗證計畫」（Cyber Verification Program）。如果獲得批准，申請者在使用 Claude 進行網路安全工作時將受到較少限制。OpenAI 也有一個類似的計畫，稱為「網路信任存取」（Trusted Access for Cyber）。