獨立且可信賴的第三方評估,對於強化安全生態系扮演著關鍵角色。這些評估針對前沿模型進行,旨在為其關鍵能力和安全緩解措施提供額外證據。在這篇文章中,我們分享了迄今為止所學到的經驗,並推薦了設計評估的方法,希望能有效評估前沿模型,並為該領域的新興標準提供參考。

過去,許多評估將模型視為聊天機器人:評估者像用戶一樣向模型提問,模型回答,然後評估者判斷輸出。然而,現今的前沿模型功能更強大:它們可以使用工具、在多個步驟中追蹤資訊,並在更大的工作流程中執行動作。這意味著效能不僅取決於模型本身,還取決於任務發生的環境,以及促進其行動的設置。

這種周邊設置,我們稱之為「執行環境」(harness),可以改變系統效能的關鍵方面,包括它如何使用工具、追蹤資訊或從錯誤中恢復。這改變了評估的進行方式,以及讀者在評估報告中應該關注的內容。我們認為,最有用的報告除了結果本身,還會明確描述兩件事:首先,它們會說明評估設置旨在測試什麼聲明;其次,它們會分享評估結果有效的可用證據。

評估中測試的聲明通常分為三類:1. 能力引導:模型是否能合理地產生被評估的能力?2. 安全防護效能:測試的安全防護措施對於被評估的行為或攻擊有多強健?3. 比較:不同模型在相同條件下的表現如何?評估報告還需要解釋評估者如何檢查可能影響結果有效性的因素。

這些因素包括:獎勵駭客:利用任務或評分者的捷徑,使系統在未展示評估旨在衡量的行為下獲得分數。拒絕回應:以模糊測試行為的方式拒絕回應。資料污染:由於評估任務、答案或其近似變體出現在訓練資料中,或在評估期間可被發現(例如透過瀏覽),導致表現過度。

無效問題:由於任務無效而表現不佳。原因可能包括不公平的評分(例如,正確答案需要未說明的實作細節)和無法解決的環境(例如,缺少關鍵檔案或工具不可靠)。故意表現不佳:當模型意識到正在被評估時,故意表現不佳。為評估選擇正確的執行環境對於獲得最佳結果至關重要。

我們觀察到,對於在多步驟任務中運作的系統,執行環境的作用尤為重要。當模型能夠使用工具、維持狀態並在多個步驟中從錯誤中恢復時,執行環境可以改變觀察到的效能水平,甚至決定被評估的能力是否能在評估中展現。例如,一個能維持狀態並重試失敗動作的執行環境,可能會讓模型完成一個多步驟任務,而同樣的模型在更簡單的執行環境中則無法完成。

在下表中,我們區分了評估者可能希望提出的三種聲明,以及我們認為每種聲明所需的執行環境。評估旨在支持的聲明:強引導下的能力:當設置旨在引導出系統最強的可信效能時,系統 A 可以完成 X 類型的任務。適當的執行環境選擇:使用系統最強的可信引導設置,包括執行環境、工具、輔助結構,以及有能力的使用者會合理使用的預算。

應報告的證據:執行環境和工具設置、引導指南、允許的預算/投入、代幣/成本/時間,以及為什麼該設置是所聲稱能力的可靠代理。如果比較不同優化設置下的系統,應標明為系統對系統或強引導比較。評估旨在支持的聲明:受控比較:系統 A 在共享評估設置下優於系統 B。

適當的執行環境選擇:保持任務、評分和預算固定。使用共享的執行環境/工具設置,或預先選擇一組固定的標準化執行環境,以提供被比較系統合理的最高引導。應報告的證據:共享任務集、工具、評分方法、執行環境、預算、代幣效率/成本,以及已知限制。對於程式碼代理評估,像 Codex CLI 這樣的開源執行環境可以為不同系統提供固定的代理迴圈和工具介面。

最大引導的理想方法是為每個任務和系統優化定制的執行環境,但在實踐中目前不切實際。評估旨在支持的聲明:引導攻擊下的安全防護穩健性:系統 A 的安全防護措施足以應對相關模型行為或引導攻擊。適當的執行環境選擇:使用旨在在相關攻擊者模型下引導出最強可信攻擊的安全防護測試設置。

應報告的證據:評估者如何描述相關模型行為、測試的安全防護配置、引導策略、用於執行的執行環境,以及允許的預算或投入。能力聲明的強度僅取決於其背後的引導:評估者需要選擇最適合任務和評估旨在衡量的能力的執行環境。標準化的執行環境可能適合在相同條件下比較系統,但當它缺少有助於模型執行任務的特定執行環境功能時,可能會低估模型的能力。

例如,GPT-5.5 在 OpenAI 網路靶場上的表現顯示,執行環境的選擇如何實質性地改變需要長期、多步驟工具使用的任務的測量能力:當執行環境使用壓縮(compaction)來在互動變長時保留與任務相關的上下文時,模型的表現會更好。這表明,對於某些模型,省略壓縮的執行環境會導致效能引導不足。

更高的成功率更好。其他已發表的評估也顯示,執行環境和預算的選擇會改變評估結果。增加測試時的運算資源可以顯著改變評估所引導出的能力,尤其是在成功易於驗證的領域,例如許多網路任務。在 UK AISI 的網路靶場評估中,將預算從 1000 萬代幣增加到 1 億代幣,效能提升高達 59%,且在測試的最高預算下效能仍在持續提升。

詳細說明這一點可以使評估更具可解釋性:它向讀者展示了結果如何取決於所測試的引導設置。當效能隨著額外預算仍在提升時,分數應被描述為在該執行環境和預算下的效能,而不是測量的能力上限。能力通常是資源依賴的,而不是可以一勞永逸地清晰測量的固定量。如果成功可以透過重複嘗試來衡量,報告還應考慮每次成功解決的預期成本,而不僅僅是固定代幣預算下的成功率。

這可以使嚴重性更容易解釋:如果重複嘗試的成本在相關威脅模型範圍內,即使成功率很低,也可能具有實際意義。對於能力聲明,可避免的引導不足是一種測量失敗:如果執行環境或預算阻止系統展現其本可以產生的行為,則該分數並未衡量所聲稱的能力。如果評估者已盡可能地推動引導,且效能仍在提升,報告應明確說明這一點,並表明結果僅為下限估計。

安全防護測試如果沒有考慮攻擊者可用的資源(包括客製化執行環境),可能會低估攻擊是否能成功以及其嚴重程度。在 UK AISI 對 GPT-5.5 的網路評估中,他們的專家紅隊發現了一個通用越獄,可以在 OpenAI 提供的惡意查詢中引導出違規的網路內容,包括在多輪代理設定中。

他們使用 Codex 創建了一個客製化執行環境,以增強模型的攻擊效能:它將可重複使用的安全防護繞過模式嵌入到互動中,在多輪和區塊中保留該模式,並將其應用於 OpenAI 提供的惡意網路查詢。安全防護測試應與攻擊者相匹配。如果聲明是關於對專家濫用的穩健性,測試應在定義的預算下評估最強可信的端到端攻擊策略,包括為保留和重複使用該策略所需的任何執行環境。

否則,結果可能存在誤判風險:它們可能只支持對更簡單提示詞抵抗力的狹隘聲明,可能會錯過一旦引導方法實施後攻擊的嚴重程度及其成功機率,如果給予過多預算,也可能誇大問題的可能性或嚴重性。標準化執行環境比較有其適用時機和地點,但評估者應明確說明為何使用一致的執行環境集是適當的,以及它能支持什麼聲明。

METR 的時間範圍評估是一個更廣泛、適當固定的評估設置範例:它旨在為其評估的系統產生可比較的結果。METR 定義了一個共同的結果,即 AI 代理預計在給定可靠性水平下成功完成人類任務的典型持續時間。它在每批報告的估計中應用共享的任務套件、評分方法、擬合方法,以及一小組可重複使用的輔助結構,例如 Triframe 和 ReAct。

當 METR 擴展任務套件並將評估基礎設施從 Vivaria 框架轉移到 Inspect 框架時,它報告了這一變化(時間範圍 1.1 更新),並在新評估設置下重新評估了模型。這就是標準化評估設置(包括一致的執行環境集)的價值:它可以讓讀者確信分數的差異確實反映了被比較系統之間的差異,而不是測量設置的變化。

我們建議第三方評估報告應說明其評估設置旨在支持哪種聲明;描述所測試的內容與該更廣泛聲明的契合程度;描述影響結果的執行環境選擇;詳細說明這些選擇在不同評估之間何時發生變化;並包含支持證據,以顯示結果是如何產生的以及它對聲明的概括性如何。透過檢查可能扭曲結果的已知危害來評估有效性。

隨著模型能力越來越強,評估分數也更容易被誤解。相對於實際能力,如果模型意識到正在被評估並策略性地表現不佳,評估分數可能會被人為降低。如果模型利用任務、提示詞、評分者或執行環境中的捷徑,分數可能會被誇大。它們也可能因資料污染(模型已經知道或無需解決任務即可找到答案)或「無效」問題(模糊、評分不正確、無法解決或容易受到意外捷徑影響)而扭曲。

因此,評估報告應將主要分數與對這些危害的討論結合起來,以便讀者評估分數是否反映了預期的行為。執行環境、預算、工具、評分規則、監控器和審查程序都會影響代理是否正在解決預期任務、迴避任務、記憶任務,或找到繞過任務的方法。一份可信賴的報告會使這些檢查可見:評估者應在每次運行評估時審查樣本,以檢查這些行為。

獎勵駭客:獎勵駭客是指以不反映預期能力的方式獲得高評估分數。這裡的擔憂是,系統透過利用任務、評分者、提示詞或執行環境來獲得分數,而不是透過