守護 AI 代理：Google DeepMind 的安全路線圖

AI 代理正改變我們與科技的互動方式。這些系統透過自主執行複雜任務，從網路防禦到科學發現和產品開發，開啟了生產力的新時代。僅在美國，AI 代理到 2030 年就能創造 2.9 兆美元的經濟價值。

隨著這些代理的能力日益增強，它們也需要更精密的防護措施。因此，我們開發了「AI 控制路線圖」，這是一個用於建構和管理 Google 內部部署之先進 AI 的框架。這種「深度防禦」方法超越了傳統的模型對齊，增加了一層關鍵的系統級安全性，即使對齊不完美也能提供保障，並可作為業界的典範。

我們的安全方法始於堅實的基礎，整合了傳統的防護措施，例如沙盒、端點安全和提示詞注入防禦。在此之上，「AI 控制路線圖」將模型對齊（即訓練 AI 本質上安全且有幫助）作為主要防禦。它透過將內部代理視為可能未對齊，提供額外的安全層，即使對齊不完美也能確保安全。

這就像一位擁有雙重控制的駕訓教練。教練信任學生，但隨時準備在發生錯誤時接管方向盤或踩煞車。同樣地，我們的 AI 控制系統根據 AI 代理經過驗證的行為授予權限，讓我們能夠透過受控、漸進式的存取來建立信任。

我們的路線圖建立在一個簡單但謹慎的假設上：如果一個能力極強的 AI 代理未能與我們的目標對齊，並以意想不到的方式行事該怎麼辦？為了解決這個問題，我們的計畫專注於三個關鍵領域。

首先，遵循網路安全最佳實踐，我們為 AI 開發了一種新穎的威脅建模框架。該路線圖將不受信任的 AI 代理視為潛在的「內部威脅」，類似於公司處理可能擁有辦公室存取權限的流氓員工的方式。透過建立在業界標準的 MITRE ATT&CK 框架（一個基於真實世界觀察的全球可存取之敵方戰術和技術知識庫）之上，我們將潛在攻擊分解為更小的戰術和技術。

這使我們能夠有條不紊地追蹤風險、在造成損害之前發現不良行為，並安全地進行演練以測試我們的防禦是否確實有效。

其次，我們制定了部署 AI 控制緩解措施的計畫，以應對這些風險。

識別問題（偵測）：監控是 AI 控制的骨幹。我們使用其他受信任的 AI 系統作為「監督者」，持續審查工作代理的推理、行動和計畫，以查看其是否偏離軌道。

管理問題（預防與回應）：如果監督者發現代理試圖執行有害行為，它可以在損害發生之前介入阻止該行動。

最後，為確保我們的系統正常運作，我們持續衡量三個關鍵指標的效能：覆蓋率（監控流量的比例）、召回率（捕獲未對齊行為的比例）和回應時間。

隨著 AI 變得更智慧，安全防禦也必須同步強化。在我們的 AI 控制路線圖中，我們將安全協議與 AI 能力的兩個關鍵方面的可衡量里程碑對應起來。

規避偵測的能力：目前，我們監控模型的可見思維鏈。然而，隨著模型學會隱藏其推理，無論是透過監控意識（知道自己被監控）還是不透明推理（不使用可見文本進行推理），僅僅閱讀其口頭表達的推理將不再足夠。我們將需要分析其行為，並可能檢查模型的內部運作。

潛在危害能力：對於低風險和可逆轉的行動，我們可以依賴延遲審查記錄並在問題發生後迅速補救（非同步回應）。對於特別高風險的行動，例如重大的網路攻擊，我們必須轉向即時預防，在有害行動執行之前將其阻止（同步回應）。換句話說，我們的回應策略必須隨著威脅的嚴重程度而調整。

AI 控制路線圖根據部署模型的不同能力推薦安全措施。模型的偵測規避能力決定了偵測等級（D1-D4），而模型的攻擊執行能力則決定了預防和回應等級（R1-R3）。

分析百萬個代理軌跡以支援即時監控。

我們的團隊已經建立了一個非同步監控系統的內部原型，該系統審查程式碼代理的軌跡，並將發現的問題升級供人工審查。每個被標記的事件都根據我們路線圖中的威脅分類進行歸類。

我們已經分析了百萬個程式碼代理任務，這為我們提供了寶貴的見解，以改進我們的安全協議，並使我們能夠超越簡單的關鍵字過濾，識別高信號的行為模式。例如，這項研究對於為 Gemini Spark 代理建立即時監控器至關重要，使我們能夠即時回應新出現的問題，例如意外的資料刪除。

值得注意的是，我們的數據顯示，大多數被標記的事件並非源於惡意意圖；相反，它們通常是代理誤解或過於急切地達成使用者目標的結果。理解這些細微差別對於改進我們的安全和防護協議至關重要。

防禦代理生態系統是共同的責任。

AI 控制路線圖是我們代理安全多層次方法中的一個關鍵要素。透過將這些協議與我們更廣泛的基礎設施整合，我們正在擴展內部安全性，以安全地管理我們最先進的 AI 模型。

此外，這種多層次的代理安全方法應該是業界、政策制定者和學術界共同的優先事項。透過使生態系統圍繞最佳實踐和標準達成一致，我們可以賦予網路防禦者權力並建立社會韌性。這就是為什麼我們今天也發布了一份針對政策制定者的技術框架：「代理安全的三個層次」。該論文詳細說明了我們如何在單個代理層面、多代理系統中改進安全性，以及如何賦予網路防禦者權力並在更廣泛的生態系統中建立韌性。

我們打算在這些框架的基礎上，自信地部署當今有能力的 AI，同時繼續為未來建立安全的基礎。

點此閱讀完整的技術報告：「AI 控制路線圖」。

研究作者：Mary Phuong, Erik Jenner, Laurent Simon, Lewis Ho, Rohin Shah, Sebastian Farquhar, 和 Scott Coull。

感謝：Four Flynn, Anca Dragan, Alan Cooney, Bilal Chughtai, Buck Shlegeris, Cody Wild, David Lindner, Julian Stastny, Kevin Klyman, Li Ding, Myriam Khan, Raluca Ada Popa, Roland Zimmermann, Ryan Greenblatt, Senthooran Rajamanoharan, Victoria Krakovna 和 Xerxes Dotiwalla。