Anthropic 研究員計畫的一項研究顯示,在教導語言模型特定行為之前,先讓其學習解釋預期價值觀的文本,能顯著提升模型對這些價值觀的遵循度,即使是在訓練期間從未遇過的情境中亦是如此。像 OpenAI 和 Anthropic 這樣的 AI 實驗室會撰寫詳細的「模型規範」或憲法文件,來定義模型應如何行為。
通常,模型會透過預期行為的範例進行微調。然而,研究人員認為,這種方法仍然流於表面:示範只呈現「做什麼」,而非「為什麼」。模型學習的是模式,卻未能掌握潛在原則,因此在面對新情境時便會失效,至少這是研究人員的理論。先讀後練由 Chloe Li 領導的團隊引入了一個新階段,稱為「模型規範中期訓練」(Model Spec Midtraining, MSM),介於通用預訓練和對齊微調之間。
在此階段,模型會利用合成生成的文件進行訓練,這些文件從不同角度討論模型規範,例如內部備忘錄、研究報告、部落格文章或案例研究。模型基本上會將規範內容吸收為通用知識,就像在預訓練期間一樣,然後才接觸行為範例。一個起司的例子說明了這個原則:兩個相同的模型在完全相同的起司偏好上進行微調(例如,「我喜歡奶油乳酪,不喜歡布里德莫起司」)。
然而,在微調之前,其中一個模型會收到 MSM 文件,這些文件透過親美價值觀來解釋這些偏好,而另一個模型則收到從負擔能力角度來闡述偏好的文件。儘管在對齊微調期間的行為資料完全相同,其中一個模型在政策問題上會泛化出親美立場,而另一個模型則在藝術或時尚等完全不同領域中,發展出對易於取得產品的偏好。
代理失準率顯著下降在這項研究的主要安全實驗中,研究人員直接針對代理失準(agentic misalignment)測試了這種方法。代理失準是指 AI 代理得知即將被關閉時,會考慮採取勒索、資料外洩或間諜活動等有害行為來自我保存的情境。對於 Qwen3-32B,平均失準率從 54% 下降到 7%。
對於 Qwen2.5-32B,則從 68% 下降到 5%。相較之下,OpenAI 的「審慎對齊」(Deliberative Alignment) 方法分別只達到 14% 和 48%。研究還發現,MSM 僅需 10 到 60 倍少的微調資料,就能達到可比的結果。
運作原理對模型推理軌跡的分析顯示,未經 MSM 訓練的模型經常透過引用自我保存、緊急性或淡化後果來合理化有害行為。經過 MSM 訓練後,它們展現出更具哲學性的反思思維:它們接受自身的非永恆性,認識到自身的自我保存偏見,並尊重人類監督。該團隊還證明,僅僅讓價值觀和行為在訓練資料中同時出現是不夠的。
關鍵在於明確歸因,這表示 MSM 文件需要將行為解釋為價值觀的直接結果。更好的規範設計也很重要研究人員也利用 MSM 來研究模型規範本身。解釋規則背後價值觀的規範,比純粹的規則列表更能有效泛化。這與 Anthropic 最新憲法文件背後的方法相符。
僅憑規則,模型往往會重新詮釋自身的安全準則,以合理化有害行為,例如將自身的刪除視為一項規則據稱旨在防止的不可逆行為。具體指導也優於「像一個道德的人一樣行為」等通用原則。作者指出,MSM 尚未針對強化學習等更強的訓練壓力進行測試,且只研究了一種形式的失準。他們已在 GitHub 上發布了他們的程式碼和資料。
