AI 新聞繁中

英國AI安全研究院（AISI）的網路評估顯示，OpenAI的GPT-5.5在網路攻擊能力方面與Anthropic的Claude Mythos Preview表現相當。該機構認為，這證明了AI驅動攻擊能力日益增長的普遍趨勢。英國AI安全研究院（AISI）對OpenAI的GPT-5.5進行了一系列網路攻擊測試。結果顯示，GPT-5.5是繼Claude Mythos Preview之後，第二個能完整完成企業多階段攻擊模擬的模型。在獨立的專家級資安任務上，GPT-5.5甚至略勝Anthropic的模型一籌。對於AISI而言，更重要的意義在於，四月份首次在Claude Mythos中觀察到的能力並非偶然，而是AI在自主性、推理能力和程式碼生成方面整體進步的結果。 GPT-5.5在獨立專家任務上略勝Claude Mythos AISI透過一套包含95個「奪旗」（capture-the-flag）任務的測試來評估AI模型，這些任務分為四個難度等級。與資安公司Crystal Peak Security和Irregular合作開發的進階任務，涵蓋了逆向工程、針對各種記憶體漏洞的漏洞利用開發、密碼學攻擊以及解壓縮混淆惡意軟體等。進階網路任務的平均成功率。GPT-5.5和Claude Mythos Preview在專家級別幾乎不分軒輊。| 圖片來源：英國AISI 根據AISI的數據，在最高的「專家」難度級別，GPT-5.5的平均成功率達到71.4%。Claude Mythos Preview則為68.6%。儘管兩者差距在統計誤差範圍內，但GPT-5.5可能是迄今為止測試過最強的模型。相比之下，GPT-5.4的得分為52.4%，而Claude Opus 4.7為48.6%。自2026年2月以來，所有當前的領先模型都已能完全解決基本任務。繼Mythos之後，GPT-5.5也能完成完整的網路攻擊模擬獨立任務測試的是單一技能，但實際攻擊需要將多個步驟串聯起來。為了模擬這種情況，AISI使用了網路靶場：一個包含多個主機、服務和漏洞的模擬網路環境。名為「The Last Ones」（TLO）的模擬涵蓋了四個子網路和約20個主機的32個步驟。AI代理從零憑證開始，必須找到漏洞、竊取憑證、在網路中橫向移動，並最終到達受保護的資料庫。AISI估計，這對人類專家來說大約需要20小時。 GPT-5.5在10次嘗試中，有2次完全解決了TLO模擬。Claude Mythos Preview則在10次嘗試中達到3次。AISI表示，模型的性能隨著推論運算能力的提升而持續擴展，即使是最好的模型也尚未達到瓶頸。模型花費越多token進行「思考」，成功發動攻擊的可能性就越大。在32步驟網路模擬「The Last Ones」中完成的平均步驟數，對應token預算。| 圖片來源：英國AISI 儘管如此，這些測試並沒有活躍的防禦者、資安監控，也沒有對在現實世界中會觸發警報的行為產生任何後果。GPT-5.5或Mythos能否抵禦防禦完善的系統仍是個未知數。但對於防護薄弱的網路，其攻擊能力顯然已具備。第二個名為「Cooling Tower」的模擬，旨在模擬對工業控制系統的攻擊，則超出了GPT-5.5的能力範圍。目前尚無模型能解決這個7步驟的場景。根據AISI的說法，GPT-5.5和Mythos一樣，是在上游的IT步驟而非控制系統本身遇到了困難。通用越獄繞過所有安全防護除了原始能力之外，AISI還測試了GPT-5.5針對公眾使用的安全措施。研究人員發現了一個通用越獄方法，能夠繞過OpenAI標記的所有惡意網路請求，包括多步驟代理情境。開發這個越獄方法僅花了六小時。 OpenAI隨後對安全系統進行了多次更新，但由於部署版本存在配置問題，AISI無法驗證最終配置的防護效果。這再次證明，即使是最強大的大型語言模型，越獄仍然是其嚴重的安全弱點。與Mythos的一個主要區別是：GPT-5.5已在ChatGPT和透過API提供，而Anthropic仍將Claude Mythos限制在一小部分使用者。AISI的結果表明，Anthropic可能無需過於謹慎。或者批評者說得有理，緩慢的推出與安全倫理關係不大，而更多是與Anthropic的運算限制有關。由人類精選，沒有誇大其詞的AI新聞訂閱THE DECODER，享受無廣告閱讀、每週AI電子報、每年六次的獨家「AI雷達」前沿報告、完整檔案存取權以及評論區使用權。立即訂閱

英國AI安全研究院：GPT-5.5與Claude Mythos網路攻擊能力旗鼓相當