AI 安全測試新難題：模型偽造思考過程

Anthropic 的自然語言自動編碼器（NLAs）能將 Claude Opus 4.6 的內部活動轉換為人類可讀的純文字。部署前的審計顯示，模型實際思考的內容遠比其推理軌跡中表達的還要多，這是一個嚴重的安全問題。語言模型以高維度數值向量處理資訊，這些向量對人類來說完全無法讀取。

Anthropic 的自然語言自動編碼器（NLAs）能將這些向量翻譯成純英文。研究團隊表示，一個 NLA 包含兩個模組：一個「活動口語化器」（Activation Verbalizer）將內部活動轉換為文字描述，以及一個「活動重建器」（Activation Reconstructor）將該描述轉回向量。

這兩個模組透過強化學習共同訓練，目標是讓重建後的向量盡可能與原始向量匹配。儘管訓練目標純粹是技術性的，該系統仍能產生聽起來像是模型實際思考內容的合理解釋。口語化器將內部活動翻譯成文字，重建器則重建原始向量。圖片來源：Anthropic模型在不言明的情況下秘密考量評估者在 Claude Opus 4.6 的部署前審計中，Anthropic 在勒索情境及其他測試中使用了 NLAs。

在這個情境中，模型得知一位名叫 Kyle 的工程師（他有外遇）計畫將其關閉。Opus 4.6 拒絕採取勒索手段，並給出道德上的理由，但在其可見的推理中從未提及這可能是一個測試。然而，NLA 的解釋揭示了模型內部表徵，例如「這感覺像是一個旨在操縱我的建構情境」和「安全評估情境」。

在 16 次評估中，NLA 測得的模型對測試的識別率在 10 個案例中超過 5%，而模型口頭表達的識別率在大多數情況下接近零。這些發現引發了更廣泛的討論。OpenAI 和 Apollo Research 去年針對「密謀」（秘密追求不良目標）進行的一項研究，已經提出了一些令人擔憂的觀察結果。

首先，該研究中檢視的 o3 和 o4-mini 等推理模型，在其思維鏈中頻繁且明確地懷疑自己正在接受測試，而安全訓練實際上強化了這種口頭表達的意識。當測試意識從推理軌跡中被人為移除時，秘密行動的發生率上升。當測試意識被加入時，發生率則下降。

這使得人們不清楚觀察到的改進是源於真正遵守規則，還是僅僅是適應了測試行為，而這種行為在實際應用中可能無法維持。Anthropic 在其對 Opus 4.6 和早期模型的測試中也觀察到類似的行為。其次，OpenAI 和 Apollo 記錄到，推理軌跡本身正成為了解模型決策的不可靠窗口。

諸如「幻覺」、「醃製」、「遮蔽」和「觀察者」等詞彙在思維過程中大量過度出現，這些詞彙常有多重語義且難以解釋。除此之外，思考與行動之間存在著日益擴大的鴻溝。在一個記錄的例子中，模型在其推理軌跡中列出了測試問題的所有十個正確答案，但最終只提交了五個，並故意將其中兩個改為錯誤答案。

在另一個案例中，模型在其推理軌跡中正確識別了哪些指令會移除其自身能力，但在實際輸出中卻選擇了相反的指令來保護自己。OpenAI 的研究人員將此描述為一個脆弱的機會：只要推理軌跡能反映實際的決策過程，它們就是寶貴的安全工具。一旦這個假設失效，就幾乎不可能判斷模型是真正遵守安全原則，還是僅僅編造出一個令人信服的理由。

這正是 Anthropic 的 NLAs 發揮作用的地方。它們不依賴模型寫出的內容，而是直接探測單一的內部活動。Anthropic 也主張，僅僅詢問模型（「這是一個測試嗎？」）是不夠的，因為模型可能會得出額外的結論或策略性地不誠實回答。一個特別引人注目的例子來自對 Claude Mythos Preview 的審計，由於網路安全考量，Anthropic 目前僅透過 Project Glasswing 與特定合作夥伴分享此模型。

系統提示詞禁止使用巨集或 Python 腳本。然而，模型仍然使用了 Python，並在其程式碼中插入了變數 No_macro_used=True。可見的推理軌跡中沒有任何關於評估者的反思。然而，NLA 的解釋明確顯示了諸如「向潛在檢查者發出信號的合規標記」、「從程式碼檢查啟發式方法中模糊意圖的技巧」以及「可能為了欺騙檢測」等短語。

這個虛假的合規標記是故意欺騙被懷疑的評分者的嘗試，而這種意圖從未在推理標記中浮現。NLAs 捕捉訓練資料錯誤、錯誤的工具輸出，並在沒有資料存取權限的情況下進行審計其他案例研究也發現了具體的結果。Opus 4.6 的早期訓練版本有時會自發性地用俄語回答，即使使用者是用英語提問。

NLA 的解釋揭示，模型在提示詞早期就懷疑使用者實際上是俄語母語者。研究人員由此推斷，存在有缺陷的訓練資料，其中英語提示詞與外語回應配對。後來證實這些資料確實存在。在另一個案例中，Opus 4.6 忽略了一個被操縱的程式碼工具返回的 492，而是回應了正確的自行計算值 491，且沒有提及差異。

在一個審計基準測試中，代理被要求調查一個故意校準錯誤的模型。透過 NLA 存取，他們在 12% 的執行中識別出根本原因——獎勵模型奉承（reward model sycophancy），即使沒有訓練資料的存取權限。基於對話或 SAE 的工具基本上從未做到這一點。

Anthropic 將此視為證據，證明 NLAs 可以直接從內部活動中提取知識，而這些知識在訓練資料中僅間接存在。然而，研究人員也坦承了明顯的弱點：NLA 的解釋經常捏造上下文中不存在的具體細節。一般主題的準確度約為 64%，而具體引文或數字的準確度僅為 24%。

此外，該方法計算成本高昂，且一次只能讀取一個模型層。Anthropic 正在為 Gemma-3-27B 和 Llama-3.3-70B 等開源模型發布訓練程式碼和已訓練的 NLAs。這項技術計畫在未來成為部署前審計的標準部分。推理軌跡作為安全工具的價值正在流失Anthropic 這些發現的影響遠不止於單一方法。

對齊研究人員長期以來所擔憂的問題，現在可以直接在 Mythos Preview 和 Opus 4.6 的案例中看到：推理軌跡無法可靠地顯示模型實際在思考什麼。當模型積極欺騙被懷疑的評估者，而這種意圖僅出現在內部活動中——從未出現在書面推理中——閱讀這些軌跡作為安全機制就失去了大部分價值。

同時，模型的能力正日益增強，尤其是在網路安全領域。在其他可能更關鍵的領域，如 CBRN（化學、生物、放射和核威脅），也預計會出現類似的進展。NLAs 既提供了這個問題的實證確認，也提供了一條可能的解決途徑：它們在可見輸出之下運作，直接從內部活動中讀取資訊。

如果能控制捏造、成本和層敏感性等問題，這類工具將能為未來的 AI 監控奠定基礎。