Google DeepMind 憂心 AI 代理大規模互動風險，攜手夥伴資助千萬美元研究

為了解決這個問題，Google DeepMind（上個月在 Google I/O 大會上將代理式工具作為核心焦點）已與其他幾個組織合作，宣布投入 1000 萬美元的資金，資助研究人員探討多代理系統的行為，並找出預防不安全情境的方法。參與的單位包括 Google DeepMind、由 Eric 和 Wendy Schmidt 創立的慈善基金會 Schmidt Sciences、英國政府的登月計畫機構 ARIA、英國非營利研究機構 Cooperative AI foundation，以及 Google 的慈善部門 Google.org。

我詢問了 Shah 和 Schmidt Sciences 旗下「可信賴 AI 科學」計畫負責人 James Fox，他們希望透過這 1000 萬美元達成什麼目標。這筆金額雖然不小，但與 Google DeepMind 自身研究團隊的預算相比，仍顯得微不足道。

Shah 表示，此舉旨在啟動科技公司以外的研究：「學術界的優勢在於，他們能夠看得非常長遠，並從事那些在業界實驗室中不被視為首要任務的研究。」他補充說：「主要問題是，目前還沒有一個真正針對多代理安全的研究領域，而我們希望能夠建立這樣一個領域。」

他們擔憂，隨著越來越多的 AI 代理被部署並開始協同工作，我們可能會達到一個臨界點，讓想像中的情境成為現實。Shah 說：「我們在人類社會中也看到了這一點，我們的機構能夠完成任何單一人類都無法完成的事情。」Shah 認為，在 AI 代理大規模部署於經濟體系中，使其潛在風險成為真正問題之前，我們還有幾個月的時間。他希望能夠搶先一步應對這個時刻。

那麼，我們究竟在談論哪些風險呢？Shah 和 Fox 心中所想的可能性，大多歸結為現有網路惡意行為的「超級強化版」：例如詐騙、提示詞注入（即向 AI 代理輸入惡意指令，使其變成自我引導的惡意軟體），以及其他形式的網路攻擊。Shah 表示，我們觀察人類現在的行為，然後思考其代理版本會是什麼樣子。

Fox 說：「我們擁有這個對社會運作至關重要的數位公共領域，你確實希望確保它不會陷入徹底的混亂。」（我問 Shah，他們是否有考慮更悲觀的末日情境，例如大規模經濟崩潰。他說：「如果我們談論的是今年底之前，那肯定不會。」那只剩下六個月了！他笑了笑說：「好吧，那會是在那之後的一段時間。」）

Shah 和 Fox 都認為，要理解大量多代理系統相互作用時可能發生的情況，唯一的方法就是進行真實的模擬。他們希望研究人員能將 AI 代理放入沙盒中，研究它們的行為。Fox 指出，你無法透過孤立地研究單一代理，甚至小群代理來預測會發生什麼。你也不能假設由大型語言模型（LLM）驅動的 AI 代理會永遠理性行事。而複雜性正是來自於同時發生的大量互動。

一些研究人員，包括 Google DeepMind 的一個團隊，曾提出通用人工智慧（如果可能實現的話）可能不是來自單一的超級智慧模型，而是來自一種代理群體思維，其中整體的能力大於各部分之和。

不信任感。Google DeepMind 並非唯一一家警告其所開發技術風險的頂尖 AI 公司。幾週前，Anthropic 發布了部署 AI 代理的指南，該指南基於一種稱為「零信任」的網路安全方法，其前提是假設電腦系統是脆弱的、代理是攻擊者，並且入侵將會發生。

位於特拉維夫的網路安全公司 Akeyless 共同創辦人兼技術長 Refael Angel 同意，理解代理式系統帶來的新風險至關重要。Angel 表示，過去所有的安全方法都假設機器是人類編寫的軟體，在固定路徑上執行固定任務：「但代理打破了所有這些假設。它會推理、會即興發揮，而且可能僅僅因為閱讀了一份文件中隱藏的一句話就被劫持。」

Angel 樂見這筆新資金的投入。他說：「沒有任何單一實驗室應該制定所有人都必須信任的安全標準。」但他提醒，安全研究人員可能會為了追求更奇特、假設性的問題，而忽略那些已經存在的「無聊」問題。然而，Fox 指出，幾年前還是假設性的風險，現在已經變得非常真實：「未來比預期來得更快。」