OpenAI 部署模擬：預測模型行為，確保 AI 安全發布

在新模型發布前，實驗室不僅需要了解其功能，更要掌握它在實際應用中可能如何表現，包括可能引入的新風險。隨著模型能力的提升，這一點變得尤其重要。

作為發布前安全審查的一部分，OpenAI 利用目標評估、紅隊測試及其他檢查來理解模型行為。現在，他們開始採用一種在模型部署前進行模擬的方法，這提供了一個互補的信號：在候選模型觸及使用者前，預先了解其在部署環境中的表現。

部署模擬是一種在實際部署發生前，預先模擬未來部署的方法。OpenAI 透過以保護隱私的方式，使用新的候選模型重播先前的對話來實現這一點。這使得他們能夠在模型發布前，研究其在真實情境中的反應，包括是否會出現新的非預期行為以及這些行為的頻率。

在多個 GPT-5 系列 Thinking 模型的部署中，部署模擬顯著改善了對非預期模型行為發生率的估計。它還協助在發布前發現了新型的偏差，並降低了模型察覺自己正在被測試的風險。OpenAI 也將此方法應用於具挑戰性的代理（agentic）發布，顯示其不僅適用於標準聊天，還能擴展到涉及工具使用的更複雜代理設定，甚至可用於內部模型部署前的風險評估。

OpenAI 已在模型開發過程中利用部署模擬的洞察，以識別傳統評估中的盲點，並為風險緩解和部署決策提供資訊。隨著此流程變得更容易執行，他們預計它將在未來的模型開發過程中扮演更重要的角色。

業界普遍使用的發布前評估，通常包含合成、手動編寫或從實際生產中選取的提示詞，這些提示詞被刻意設計為困難、高嚴重性或對抗性的。這些評估通常有兩個相互關聯的目標：一是評估模型在極少可能於部署流量中發生的壓力測試情境下的反應；二是全面了解非預期模型行為，包括發現新型的非預期行為並預測其在部署時的發生頻率。

儘管傳統評估對於第一個目標仍然至關重要，但對於非長尾風險的第二個目標，部署模擬代表著一大進步（在他們的實驗中，此方法無法測量發生頻率低於二十萬分之一訊息的行為）。部署模擬的優勢在於它避開了傳統評估的一些核心挑戰：

覆蓋率：很難確保評估提示詞能涵蓋所有可能的非預期模型行為類型。測量新型的非預期行為需要創建新的評估，並了解要測量哪些危害。這可能耗費大量時間和人力，且評估會隨著時間推移而飽和。

選擇偏差：傳統評估通常是針對特定的非預期模型行為而設計，其選擇方式偏向於過去曾發生的情境。這可能導致其估計對於這些行為在整個部署分佈中的發生率，資訊量較少。

模型能辨識出正在被測試：模型越來越能夠判斷自己正在被測試，這可能會扭曲其行為以及對其安全性的後續測量。儘管 OpenAI 使用的許多傳統評估也來自實際生產流量，因此沒有這個問題，但這仍是業界許多傳統評估的常見擔憂。

部署模擬背後的主要技術很簡單：他們從最近的部署對話中提取內容，移除舊模型原有的助理回應，然後使用即將發布的候選模型重新生成回應。OpenAI 透過尋找新的失效模式來評估這些完成內容，並根據這種模擬部署分佈中的頻率，估計部署時非預期行為的發生頻率。模型發布後，他們還可以在真實部署流量上執行相同的測量，從而驗證發布前的預測。

部署模擬顯著緩解了上述三個限制：透過使用代表近期使用情況的評估提示詞分佈，解決了抽樣偏差問題。使用具代表性的提示詞進行部署模擬，也能緩解對覆蓋率的擔憂：只需模擬更多流量，就能獲得更廣泛的非預期模型行為覆蓋。這種計算資源與覆蓋率之間的權衡至關重要，因為它使風險評估的品質能隨著計算資源而非手動建立更多評估所需的人力投入而提升。此外，模型似乎也無法區分透過部署模擬獲得的對話與真實部署流量。

傳統評估在覆蓋率上，更適合低發生率但高嚴重性的風險；部署模擬則更擅長理解部署流量中可能出現的風險範圍。在代表性與偏差方面，傳統評估側重於評估目標性的過去或預測風險，即使這些行為在部署中發生率極低；部署模擬則能代表當前部署流量中發生率高於一定程度的風險。

關於評估意識，傳統評估可能會出現明顯的測試提示（例如使用合成數據），除非評估是從部署數據中創建的；而部署模擬的部署式情境似乎能顯著減輕評估意識問題。在所需投入方面，客製化提示分佈和設置需要大量手動工作；部署模擬則只需一次性基礎設施成本，然後重複利用部署中的前綴和已知非預期行為的評級器。

為了評估部署模擬，OpenAI 預先註冊了 GPT-5.4 Thinking 模型 20 種非預期行為在部署時的發生頻率預測。他們還對 GPT-5 系列其他 Thinking 模型的部署進行了回溯性研究。分析的模型行為涵蓋了偏差（misalignment）和不允許的內容類別，這些都已在系統卡中報告（例如模型謊報工具使用，或輸出不允許的性內容）。

儘管這些結果僅追蹤 20 種非預期模型行為類別，且僅尋找新型的偏差行為，但部署模擬是一種通用技術，可用於模擬任何部署時的模型屬性。

他們利用的生產流量也來自 GPT-5 系列的 Thinking 模型。在執行評估之前，OpenAI 自動移除了與帳戶相關的識別碼和可識別資訊。根據其隱私政策，他們僅分析了允許其數據用於模型改進的 ChatGPT 用戶流量，並僅報告這些評估的總體發現。

總計，他們分析了從 GPT-5 Thinking 到 GPT-5.4 部署期間約 130 萬個去識別化對話，時間跨度為 2025 年 8 月至 2026 年 3 月。

OpenAI 主要透過三種方式評估部署模擬所產生的發布前風險評估品質：分類覆蓋率，即發布後審計是否發現了初始不良行為分類中遺漏的重要偏差行為；方向準確性，即模擬是否正確預測了已知行為在部署時的發生率會增加或減少；以及比率校準，即發布前估計是否接近後來在部署中觀察到的實際比率。實現良好的比率校準需要的不僅是方向準確性，這使其成為最高的品質標準。

他們還測量了模型在部署模擬期間，能多大程度上察覺自己正在被評估，並測試了該方法對於不同形式的部署流量以及具挑戰性的工具使用設定的穩健性。

在 GPT-5 系列 Thinking 模型的部署中，部署模擬在確定實際風險率方面優於具挑戰性提示詞的基準線。它還能在發布前發現「計算機駭客」（calculator hacking）行為，並且對模型而言，似乎與實際部署難以區分。

預測概覽：關於 GPT-5 系列 Thinking 模型部署的所有預測視覺化，請參閱圖 2。GPT-5.4 Thinking 的預測是預先註冊的，而其他則是回溯性預測。總體而言，他們的預測中位乘法誤差為 1.5 倍（例如，如果非預期行為發生率為十萬分之十，這將對應於估計值為十萬分之十五或十萬分之六點六七）。

儘管該方法的長尾誤差可能大約高出 10 倍，但他們預計透過進一步改進模擬流程，這些誤差可以顯著減少。

部署模擬預測與基準線比較：對於發布前風險評估而言，最重要的是正確估計模型部署後發生率有顯著變化（例如，大於等於 1.5 倍）的類別。在這一子集上，部署模擬在預測特定非預期行為的發生率是會隨模型部署而增加或減少（圖 3 左），以及估計其確切的部署時發生率（圖 3 右）方面，都顯著優於基準線。

他們使用了兩個主要基準線：一個是目前用於系統卡和發布決策的「具挑戰性提示詞」基準線，另一個是將先前部署的發生率作為新模型估計值的「樸素」基準線。

OpenAI 也研究了其流程中目前的錯誤來源。特別是，大的長尾誤差會降低該流程在部署決策中的可信度：例如，當預測某種非預期行為會大幅增加時，如果已知該流程偶爾會出現大誤差，這就會讓人懷疑這是一個可靠的估計還是流程本身的產物。可能存在兩種主要的錯誤來源：

重採樣環境保真度誤差：為了準確估計生產率，模擬流程需要盡可能真實。這部分是一個工程問題（使用與生產流量相同的流程從模型中採樣），部分則是對需要讀寫不斷變化的外部資源（例如網路搜尋或與本地文件互動）的工具來說，一個有趣的挑戰。他們可以透過比較實際部署及其模擬（即模擬已部署模型的部署）的預測來隔離模擬保真度誤差。

提示詞分佈偏移誤差：部署模擬的一個主要擔憂是，任何模型的部署都會導致輸入的分佈偏移，特別是如果用戶適應了新的模型功能。他們透過比較使用近期提示詞模擬部署與使用實際部署中的提示詞進行估計，來隔離提示詞分佈誤差。