AI 模型先學「價值觀」再學「行為」，對齊效果更佳

Anthropic 研究員計畫的一項研究顯示，在教導語言模型特定行為之前，先讓其學習解釋預期價值觀的文本，能顯著提升模型對這些價值觀的遵循度，即使是在訓練期間從未遇過的情境中亦是如此。像 OpenAI 和 Anthropic 這樣的 AI 實驗室會撰寫詳細的「模型規範」或憲法文件，來定義模型應如何行為。

通常，模型會透過預期行為的範例進行微調。然而，研究人員認為，這種方法仍然流於表面：示範只呈現「做什麼」，而非「為什麼」。模型學習的是模式，卻未能掌握潛在原則，因此在面對新情境時便會失效，至少這是研究人員的理論。先讀後練由 Chloe Li 領導的團隊引入了一個新階段，稱為「模型規範中期訓練」(Model Spec Midtraining, MSM)，介於通用預訓練和對齊微調之間。

在此階段，模型會利用合成生成的文件進行訓練，這些文件從不同角度討論模型規範，例如內部備忘錄、研究報告、部落格文章或案例研究。模型基本上會將規範內容吸收為通用知識，就像在預訓練期間一樣，然後才接觸行為範例。一個起司的例子說明了這個原則：兩個相同的模型在完全相同的起司偏好上進行微調（例如，「我喜歡奶油乳酪，不喜歡布里德莫起司」）。

然而，在微調之前，其中一個模型會收到 MSM 文件，這些文件透過親美價值觀來解釋這些偏好，而另一個模型則收到從負擔能力角度來闡述偏好的文件。儘管在對齊微調期間的行為資料完全相同，其中一個模型在政策問題上會泛化出親美立場，而另一個模型則在藝術或時尚等完全不同領域中，發展出對易於取得產品的偏好。

代理失準率顯著下降在這項研究的主要安全實驗中，研究人員直接針對代理失準（agentic misalignment）測試了這種方法。代理失準是指 AI 代理得知即將被關閉時，會考慮採取勒索、資料外洩或間諜活動等有害行為來自我保存的情境。對於 Qwen3-32B，平均失準率從 54% 下降到 7%。

對於 Qwen2.5-32B，則從 68% 下降到 5%。相較之下，OpenAI 的「審慎對齊」(Deliberative Alignment) 方法分別只達到 14% 和 48%。研究還發現，MSM 僅需 10 到 60 倍少的微調資料，就能達到可比的結果。

運作原理對模型推理軌跡的分析顯示，未經 MSM 訓練的模型經常透過引用自我保存、緊急性或淡化後果來合理化有害行為。經過 MSM 訓練後，它們展現出更具哲學性的反思思維：它們接受自身的非永恆性，認識到自身的自我保存偏見，並尊重人類監督。該團隊還證明，僅僅讓價值觀和行為在訓練資料中同時出現是不夠的。

關鍵在於明確歸因，這表示 MSM 文件需要將行為解釋為價值觀的直接結果。更好的規範設計也很重要研究人員也利用 MSM 來研究模型規範本身。解釋規則背後價值觀的規範，比純粹的規則列表更能有效泛化。這與 Anthropic 最新憲法文件背後的方法相符。

僅憑規則，模型往往會重新詮釋自身的安全準則，以合理化有害行為，例如將自身的刪除視為一項規則據稱旨在防止的不可逆行為。具體指導也優於「像一個道德的人一樣行為」等通用原則。作者指出，MSM 尚未針對強化學習等更強的訓練壓力進行測試，且只研究了一種形式的失準。他們已在 GitHub 上發布了他們的程式碼和資料。