透過在具備所需行為特徵的真實情境中進行強化學習,旨在讓 AI 模型在各領域中更安全、更有幫助。這種方法與 Anthropic 的憲法式 AI 訓練方式有根本上的不同。

當 AI 模型在某個領域中學習到有問題的行為時,這種偏差可能會蔓延到其他領域。OpenAI 研究人員現在測試了反向操作是否也有效:良好的行為是否也能同樣廣泛地泛化?

根據 OpenAI 對齊(alignment)頁面上的部落格文章,答案是肯定的。研究團隊使用強化學習,在旨在測試特定所需特徵的真實對話中訓練了一個模型,這些特徵包括真實性、認知謙遜、可修正性、推理透明度、公平性以及對人類福祉的關懷。這些情境涵蓋了醫療保健、教育、科學、法律和工程等領域。

僅有少量這種「有益特徵」的資料被混入常規的強化學習後訓練流程中。然而,根據該論文,模型在衡量欺騙、誠實、奉承、獎勵駭客行為以及健康和心理健康情境的 53 個獨立基準測試中,有 44 個項目表現出改善。

僅使用健康資料進行訓練,也改善了非健康相關的評估,例如獎勵駭客行為和欺騙偵測。反之亦然:即使沒有任何健康或科學資料的訓練,仍能提升模型在健康基準測試上的表現。研究人員總結,強化學習訓練強化了跨領域通用的基本行為模式。

該團隊還測試了這些改進在壓力下是否能維持。那些嚴重破壞基準模型的惡意提示詞,對具備有益特徵的模型影響要小得多。惡意微調也較難侵蝕這些訓練出的特徵。

模型對於有益的指令仍然像以前一樣可控。研究人員將此稱為「選擇性持久性」——模型在抵抗有害操控的同時,不失其有用的靈活性。

OpenAI 的方法與 Anthropic 的對齊方法截然不同。首先,OpenAI 依賴於在真實情境中透過強化學習強化的、可經驗測量的行為特徵。相較之下,Anthropic 則採用明確的「Claude 憲法」,這是一份書面價值文件,作為訓練和行為的最高指導原則。

其次,OpenAI 大量依賴基準測試:53 項評估中有 44 項顯示出跨領域和評估方法的普遍改進。Anthropic 則採取更基於原則的方法,模型應理解為何某些行為是可取的,其基礎是憲法文本和高品質的訓練範例。該公司表示,這使得其模型更能抵抗攻擊。目前這兩種方法尚無直接比較。