OpenAI 研究揭示：少量「有益特徵」訓練可大幅提升 AI 模型安全性與抗操控性

透過在具備所需行為特徵的真實情境中進行強化學習，旨在讓 AI 模型在各領域中更安全、更有幫助。這種方法與 Anthropic 的憲法式 AI 訓練方式有根本上的不同。

當 AI 模型在某個領域中學習到有問題的行為時，這種偏差可能會蔓延到其他領域。OpenAI 研究人員現在測試了反向操作是否也有效：良好的行為是否也能同樣廣泛地泛化？

根據 OpenAI 對齊（alignment）頁面上的部落格文章，答案是肯定的。研究團隊使用強化學習，在旨在測試特定所需特徵的真實對話中訓練了一個模型，這些特徵包括真實性、認知謙遜、可修正性、推理透明度、公平性以及對人類福祉的關懷。這些情境涵蓋了醫療保健、教育、科學、法律和工程等領域。

僅有少量這種「有益特徵」的資料被混入常規的強化學習後訓練流程中。然而，根據該論文，模型在衡量欺騙、誠實、奉承、獎勵駭客行為以及健康和心理健康情境的 53 個獨立基準測試中，有 44 個項目表現出改善。

僅使用健康資料進行訓練，也改善了非健康相關的評估，例如獎勵駭客行為和欺騙偵測。反之亦然：即使沒有任何健康或科學資料的訓練，仍能提升模型在健康基準測試上的表現。研究人員總結，強化學習訓練強化了跨領域通用的基本行為模式。

該團隊還測試了這些改進在壓力下是否能維持。那些嚴重破壞基準模型的惡意提示詞，對具備有益特徵的模型影響要小得多。惡意微調也較難侵蝕這些訓練出的特徵。

模型對於有益的指令仍然像以前一樣可控。研究人員將此稱為「選擇性持久性」——模型在抵抗有害操控的同時，不失其有用的靈活性。

OpenAI 的方法與 Anthropic 的對齊方法截然不同。首先，OpenAI 依賴於在真實情境中透過強化學習強化的、可經驗測量的行為特徵。相較之下，Anthropic 則採用明確的「Claude 憲法」，這是一份書面價值文件，作為訓練和行為的最高指導原則。

其次，OpenAI 大量依賴基準測試：53 項評估中有 44 項顯示出跨領域和評估方法的普遍改進。Anthropic 則採取更基於原則的方法，模型應理解為何某些行為是可取的，其基礎是憲法文本和高品質的訓練範例。該公司表示，這使得其模型更能抵抗攻擊。目前這兩種方法尚無直接比較。