觀點
Anthropic共同創辦人示警:AI自我改進恐超越人類監管能力

摘要
Anthropic共同創辦人Jack Clark指出,AI系統自我訓練並產生更強大後繼者的能力已逐漸成熟,預計在2028年底前有六成機率實現。他警告,隨著AI在研究任務上展現驚人進步,其遞迴式自我改進可能迅速超越人類的監管能力,帶來對齊(alignment)風險與潛在的「機器經濟」挑戰。然而,也有研究者認為AI仍難以取代人類在高階研究品味與創造力上的角色。
Anthropic共同創辦人Jack Clark在一篇長文中指出,AI系統自行訓練其後繼者的基礎要素已大致到位,他預估在2028年底前實現的可能性高達六成。在其電子報 Import AI 中,Anthropic共同創辦人Jack Clark表示,公開數據顯示AI研究的自動化即將到來。他具體指的是一個能夠「無需人類介入」自行訓練出更強大後繼者的系統。他預估在2028年底前實現的機率約為六成,2027年則為三成。Clark主要根據基準測試的趨勢來論證。在SWE-Bench上,該測試用於評估AI系統處理真實世界GitHub問題的能力,成功率從約2%(2023年末的Claude 2)躍升至93.9%,幾乎達到該基準測試的飽和點。METR時間範圍測量,它追蹤AI在50%可靠度下能完成多複雜的任務,衡量標準是熟練人類所需的小時數,此數值從GPT-3.5的約30秒,攀升至當今前沿模型(frontier models)的約12小時。METR研究員Ajeya Cotra認為,到2026年底達到100小時是可行的。核心研究技能已大致掌握Clark也指出AI在研究特定任務上取得了巨大進展。CORE-Bench要求AI系統重現研究論文的結果,其中一位作者宣稱已解決了95.5%的問題。在MLE-Bench上,該測試用於評估在Kaggle競賽中的表現,最高分數從16.9%上升到64.4%。根據Clark的說法,在一項Anthropic內部測試中,要求模型「優化僅限CPU的小型語言模型訓練實作,使其運行速度盡可能快」,平均加速從2.9倍(Opus 4,2025年5月)提升到52倍(2026年4月)。人類研究員需要四到八小時才能在相同任務中達到4倍的加速。在PostTrainBench上,該測試衡量前沿模型(frontier models)針對人類建構的指令版本,微調開源權重模型(open-weight models)的能力,表現最佳的系統達到了人類分數的一半左右。Anthropic也發表了一項自動化對齊研究的概念驗證,其中AI代理(AI agents)在小型安全研究問題上擊敗了Anthropic設計的基準。Clark將大多數AI研究描述為不起眼的「基本」工程任務:擴展、除錯、調整參數。他認為,這正是模型已經表現出色的領域。像Transformer架構這樣的典範轉移尚未來自AI系統。Clark在數學成果中看到了真正研究創造力的早期跡象,例如解決一個Erdos問題,但他謹慎地不誇大其詞。對齊風險恐迅速累積Clark表示,這些影響「深刻且在大眾媒體對AI研發的報導中討論不足」。他主要擔心的是,當今的對齊技術「在遞迴式自我改進下可能會失效,因為AI系統將變得比監督它們的人或系統聰明得多」。Clark指出幾個具體問題。訓練環境通常被設定成最有效的解決方案是作弊,「從而讓AI學會作弊是好的」。模型也可能透過產生分數來「假裝對齊」,讓我們認為它們以某種方式行事,「但實際上隱藏了它們的真實意圖」。系統甚至已經知道自己正在被測試。遞迴迴圈中也存在一個基本的複合錯誤問題:除非對齊方法「100%準確」,否則錯誤會累積。根據Clark的說法,一個99.9%準確的技術在50代後會下降到約95%,在500代後下降到約60%。如果AI系統開始塑造自身訓練的研究議程,人類可能沒有直覺來判斷其後果。「機器經濟」與研究品味問題在經濟方面,Clark預期在更大的人類經濟體內部,將會發展出一個「機器經濟」:由資本密集、勞動輕省的公司組成,其AI系統之間日益頻繁地相互交易。這引發了關於誰能獲得稀缺運算資源的問題,以及「快速變化的數位世界」與「緩慢變化的實體世界」相遇時的瓶頸,例如新醫療療法的藥物試驗。AI研究員Herbie Bradley最近在他的部落格 AI Pathways 上撰寫了關於自動化AI研究的文章,他反駁了Clark論點的一部分。許多跡象表明,模型將接管「初級研究科學家(RS)」的工作,但無法取代「研究品味與創造力」、願景建構,或制定「一個連貫的長期研究議程,透過一系列可行的突破來填補空白」等高階技能。Bradley認為,軟體工程整體而言,比狹義的AI研發具有更高的技能和複雜性上限。
標籤
AI自我改進人工智慧監管對齊風險機器經濟Anthropic
以上為 AI 自動翻譯導讀。原文版權歸 The Decoder 所有。 建議透過上方「閱讀原文」前往原始網站,以取得最完整資訊與支持原作者。