404 Media 在 6 月 5 日報導,攻擊者一直在利用 Meta 的 AI 客服代理來竊取 Instagram 帳號。他們的方法很簡單:他們要求代理將帳號連結到他們控制的電子郵件地址,而代理照辦了。一名攻擊者入侵了休眠的歐巴馬白宮帳號,並發布了親伊朗的貼文;其他人則接管了有價值的單詞帳號名稱,可能是為了出售。

AI 資安疑慮並非新鮮事。自 Anthropic 在四月宣布其 Mythos 模型因駭客能力過強,不適合向大眾發布以來,評論員、研究人員和聯邦官員都一直關注超級 AI 系統可能摧毀我們電腦基礎設施的想法。但這次 Instagram 駭客事件並非如此:在這裡,AI 是目標而非攻擊者,其方法比 Mythos 可能設計出的任何東西都簡單得多。

然而,隨著企業將更多工作轉交給 AI,這些相對不複雜的攻擊也可能造成嚴重破壞。「隨著 AI 越來越廣泛地被使用——特別是當 AI 越來越廣泛地用於自動化我們的工作流程,例如帳號復原——我認為攻擊者將會越來越有動機去攻擊 AI 本身。」杜克大學電機與電腦工程教授 Neil Gong 說道。

Gong 和其他學者已經就 AI 代理的資安漏洞發出了一段時間的警告。他們發布論文和部落格文章,詳細介紹了諸如間接提示詞注入等漏洞利用方式,這涉及利用隱藏在網站、電子郵件或其他看似無害資料來源中的指令來劫持代理。與這些技術相比,Meta 的駭客攻擊幾乎是無腦的。

駭客唯一需要克服的複雜性是使用與真實帳號所有者位置相符的 VPN;然後他們直接要求客服代理更改帳號的電子郵件地址,而代理照辦了。

Meta 尚未公開評論此漏洞是如何被忽略的。但 Gong 表示,鑑於該漏洞的簡單性,它應該在代理部署前就輕易被發現。「這真的很令人驚訝。」他說。「我不明白他們為什麼沒有發現這個簡單的問題。」喬治城大學安全與新興科技中心的高級研究分析師 Jessica Ji 也同意。

「這引發了諸如:是否有防護措施到位?」她說。「有人想過測試這種情境嗎?」她指出,這種疏忽對於像 Meta 這樣在 AI 和資安方面都有豐富專業知識的公司來說尤其令人震驚。Meta 沒有回應本文的評論請求,但週一 Meta 發言人在 X 上表示該漏洞已解決。

儘管這對 Meta 來說可能是一個尷尬的時刻,但它也凸顯了所有 AI 代理共有的核心漏洞。與傳統軟體不同,代理可以以靈活且意想不到的方式應對新情況,這也是它們可能取代人類客服代理的原因。但 AI 代理也可能以人類不會被騙的方式被欺騙,而且因為它們可以採取真實世界的行動,這些錯誤會產生後果。

「人類會說,『好的,你為什麼要更改電子郵件地址?』然後可能會用安全問題來回應。」威斯康辛大學麥迪遜分校電腦科學教授 Somesh Jha 說。「這些代理的問題是它們非常渴望完成任務。這幾乎就像一些只想取悅老師的小學生。」有辦法降低風險。公司可以使用傳統軟體來建立防護措施,確保代理遵循嚴格規則,例如在將敏感帳號資訊發送到新的電子郵件地址之前,總是要求回答安全問題。

為本文諮詢的專家都同意,代理應接受嚴格的紅隊測試,這是一個開發人員盡力攻擊系統以在部署前發現其漏洞的過程。但也有對抗力量。公司希望部署有能力的代理,而代理擁有的權力越大——以及它受到的防護措施越少——它可能承擔的工作就越多。「安全性和實用性總是有取捨。」

伊利諾大學香檳分校電腦科學教授 Bo Li 說。而足夠的紅隊測試可能很昂貴。防禦者必須比攻擊者投入更多資源,因為攻擊者只需要發現一個漏洞,而防禦者則試圖發現並修補盡可能多的漏洞。當攻擊者致力於像單詞 Instagram 帳號這樣有價值的東西時,他們會投入資源尋找漏洞,因此防禦者必須花費更多的錢來保護這個獎品。

隨著 AI 模型持續改進,加強其防禦可能實際上會變得更容易。儘管大型語言模型的機率性質意味著 LLM 代理總是會受到某些形式的攻擊,但更複雜的模型可能會將更改歐巴馬白宮帳號相關電子郵件的嘗試識別為可疑。AI 系統也可用於代理紅隊測試,就像 Anthropic 的 Project Glasswing 參與者使用 Mythos 來識別其軟體中的漏洞一樣。

儘管如此,專家預計保護 AI 代理的問題在未來只會變得更加緊迫。隨著代理變得越來越有能力,採用它們的公司可能會希望賦予它們更多權力,既可以以更少的人力提供更多服務,也可以避免被競爭對手甩在後面。在快速發展的 AI 世界中,仔細保護高風險代理系統所需的時間可能看起來是無法接受的延遲。

「每個人都想成為第一個做某事的人,只是在沒有仔細審查和紅隊測試的情況下就推出產品。」Jha 說。「我認為這是一件非常危險的事情。」