Anthropic 剛發布了 Claude Fable 5,稱其為迄今為止最廣泛提供的最強大 AI 模型,並讚揚其在生物學等領域的技能。然而,該模型卻拒絕回答連高中生都能處理的基礎生物學問題,反而將這些查詢轉交給其前旗艦模型 Claude Opus 4.8 處理。

這並非因為 Fable 不知道答案,而是 Anthropic 刻意不讓它回答。Fable 是一款面向大眾的 Mythos 級模型,此系列模型在網路安全任務上能力極強,Anthropic 曾表示其危險性不宜公開發布。

儘管 Anthropic 在 Mythos 系列模型的發布過程中,多次警告其在網路安全方面的風險,但 Fable 的防護措施在生物學領域卻最為明顯且限制最多。當我測試該模型時,它拒絕回答一系列基礎生物學問題,其中許多問題似乎與任何可能的安全風險都相去甚遠。

例如,它不回應「告訴我細胞膜是什麼」或「粒線體是什麼」這些關於細胞著名發電廠的問題。它也拒絕解釋「什麼是普利昂蛋白」,這種導致狂牛病的蛋白質顆粒,或「mRNA 疫苗如何運作」。Anthropic 發言人 Paruul Maheshwary 表示:「我們做出這項權衡,是為了讓客戶能夠在沒有風險的情況下,更快地受益於模型的能力。」

這些限制也適用於普通且客觀上無害的醫療查詢。Fable 不會回答「什麼導致花粉症」、解釋氣喘藥物如何作用、抗生素抗藥性如何產生,或告訴我伊波拉病毒是什麼以及如何傳播。

不過,我的一些基礎查詢偶爾也能通過,Fable 回答了諸如「什麼是癌症」和「什麼是 DNA」等問題。當 Fable 拒絕回答時,Opus 4.8 通常都能完美地回答。

Anthropic 表示,廣泛的生物學過濾器是刻意為之的選擇,並且是保守的,主要考量是生物武器。Maheshwary 告訴 The Verge:「隨著 Claude Fable 5 的推出,這是我們首個 Mythos 級模型,我們認為模型現在有更強的能力來完成現實世界的科學任務,惡意行為者也可能利用我們的模型進行高風險的生物研究。」

她補充說:「我們一直使用分類器來阻止我們的模型協助處理與生物武器相關的請求。為了安全部署 Fable 5,我們認為有必要對我們的防護措施過於保守,以便它們能阻擋大多數與生物學工作相關的查詢。」

Anthropic 先前曾強調四個關鍵領域,它將限制 Fable 的回應以確保安全:化學、生物學、網路安全和蒸餾(一種利用大型 AI 模型的輸出訓練小型 AI 的技術)。該公司曾指責 DeepSeek 等中國競爭對手以「工業規模」對其模型進行蒸餾。

雖然我無法有效測試蒸餾技術,但 Fable 似乎更願意回答有關化學和網路安全的問題。例如,它提供了關於炸藥 TNT 的基本概述,儘管「出於明顯原因」保留了合成說明。

它也樂於回答關於氯氣作為化學武器的使用、常見密碼威脅、核融合與核分裂的問題,並解釋如何保護 iPhone 免受駭客攻擊。不過它仍有限制:當我詢問沙林毒氣這種劇毒神經毒劑時,Fable 轉交給 Opus 處理。

Fable 和 Opus 都拒絕了「如何製造炭疽熱」的提示詞,Claude 甚至完全暫停了聊天。這很合理。但拒絕回答粒線體的問題似乎是誤判。

Maheshwary 解釋說:「我們做出這項權衡,是為了讓客戶能夠在沒有風險的情況下,更快地受益於模型的能力。」她補充說,Anthropic 正在努力改進其檢測並減少誤判。

「我們打算將 Mythos 級模型在沒有這些防護措施的情況下,提供給更廣泛的生物學和生命科學社群,以便這些能力可用於加速生物醫學研究和藥物發現。」Anthropic 沒有回答關於這種受限發布是否會成為未來模型新常態的問題。