為了解決這個問題,Google DeepMind(上個月在 Google I/O 大會上將代理式工具作為核心焦點)已與其他幾個組織合作,宣布投入 1000 萬美元的資金,資助研究人員探討多代理系統的行為,並找出預防不安全情境的方法。參與的單位包括 Google DeepMind、由 Eric 和 Wendy Schmidt 創立的慈善基金會 Schmidt Sciences、英國政府的登月計畫機構 ARIA、英國非營利研究機構 Cooperative AI foundation,以及 Google 的慈善部門 Google.org。
我詢問了 Shah 和 Schmidt Sciences 旗下「可信賴 AI 科學」計畫負責人 James Fox,他們希望透過這 1000 萬美元達成什麼目標。這筆金額雖然不小,但與 Google DeepMind 自身研究團隊的預算相比,仍顯得微不足道。
Shah 表示,此舉旨在啟動科技公司以外的研究:「學術界的優勢在於,他們能夠看得非常長遠,並從事那些在業界實驗室中不被視為首要任務的研究。」他補充說:「主要問題是,目前還沒有一個真正針對多代理安全的研究領域,而我們希望能夠建立這樣一個領域。」
他們擔憂,隨著越來越多的 AI 代理被部署並開始協同工作,我們可能會達到一個臨界點,讓想像中的情境成為現實。Shah 說:「我們在人類社會中也看到了這一點,我們的機構能夠完成任何單一人類都無法完成的事情。」Shah 認為,在 AI 代理大規模部署於經濟體系中,使其潛在風險成為真正問題之前,我們還有幾個月的時間。他希望能夠搶先一步應對這個時刻。
那麼,我們究竟在談論哪些風險呢?Shah 和 Fox 心中所想的可能性,大多歸結為現有網路惡意行為的「超級強化版」:例如詐騙、提示詞注入(即向 AI 代理輸入惡意指令,使其變成自我引導的惡意軟體),以及其他形式的網路攻擊。Shah 表示,我們觀察人類現在的行為,然後思考其代理版本會是什麼樣子。
Fox 說:「我們擁有這個對社會運作至關重要的數位公共領域,你確實希望確保它不會陷入徹底的混亂。」(我問 Shah,他們是否有考慮更悲觀的末日情境,例如大規模經濟崩潰。他說:「如果我們談論的是今年底之前,那肯定不會。」那只剩下六個月了!他笑了笑說:「好吧,那會是在那之後的一段時間。」)
Shah 和 Fox 都認為,要理解大量多代理系統相互作用時可能發生的情況,唯一的方法就是進行真實的模擬。他們希望研究人員能將 AI 代理放入沙盒中,研究它們的行為。Fox 指出,你無法透過孤立地研究單一代理,甚至小群代理來預測會發生什麼。你也不能假設由大型語言模型(LLM)驅動的 AI 代理會永遠理性行事。而複雜性正是來自於同時發生的大量互動。
一些研究人員,包括 Google DeepMind 的一個團隊,曾提出通用人工智慧(如果可能實現的話)可能不是來自單一的超級智慧模型,而是來自一種代理群體思維,其中整體的能力大於各部分之和。
不信任感。Google DeepMind 並非唯一一家警告其所開發技術風險的頂尖 AI 公司。幾週前,Anthropic 發布了部署 AI 代理的指南,該指南基於一種稱為「零信任」的網路安全方法,其前提是假設電腦系統是脆弱的、代理是攻擊者,並且入侵將會發生。
位於特拉維夫的網路安全公司 Akeyless 共同創辦人兼技術長 Refael Angel 同意,理解代理式系統帶來的新風險至關重要。Angel 表示,過去所有的安全方法都假設機器是人類編寫的軟體,在固定路徑上執行固定任務:「但代理打破了所有這些假設。它會推理、會即興發揮,而且可能僅僅因為閱讀了一份文件中隱藏的一句話就被劫持。」
Angel 樂見這筆新資金的投入。他說:「沒有任何單一實驗室應該制定所有人都必須信任的安全標準。」但他提醒,安全研究人員可能會為了追求更奇特、假設性的問題,而忽略那些已經存在的「無聊」問題。然而,Fox 指出,幾年前還是假設性的風險,現在已經變得非常真實:「未來比預期來得更快。」
