AI 新聞繁中

Anthropic共同創辦人Jack Clark在一篇長文中指出，AI系統自行訓練其後繼者的基礎要素已大致到位，他預估在2028年底前實現的可能性高達六成。在其電子報 Import AI 中，Anthropic共同創辦人Jack Clark表示，公開數據顯示AI研究的自動化即將到來。他具體指的是一個能夠「無需人類介入」自行訓練出更強大後繼者的系統。他預估在2028年底前實現的機率約為六成，2027年則為三成。Clark主要根據基準測試的趨勢來論證。在SWE-Bench上，該測試用於評估AI系統處理真實世界GitHub問題的能力，成功率從約2%（2023年末的Claude 2）躍升至93.9%，幾乎達到該基準測試的飽和點。METR時間範圍測量，它追蹤AI在50%可靠度下能完成多複雜的任務，衡量標準是熟練人類所需的小時數，此數值從GPT-3.5的約30秒，攀升至當今前沿模型（frontier models）的約12小時。METR研究員Ajeya Cotra認為，到2026年底達到100小時是可行的。核心研究技能已大致掌握Clark也指出AI在研究特定任務上取得了巨大進展。CORE-Bench要求AI系統重現研究論文的結果，其中一位作者宣稱已解決了95.5%的問題。在MLE-Bench上，該測試用於評估在Kaggle競賽中的表現，最高分數從16.9%上升到64.4%。根據Clark的說法，在一項Anthropic內部測試中，要求模型「優化僅限CPU的小型語言模型訓練實作，使其運行速度盡可能快」，平均加速從2.9倍（Opus 4，2025年5月）提升到52倍（2026年4月）。人類研究員需要四到八小時才能在相同任務中達到4倍的加速。在PostTrainBench上，該測試衡量前沿模型（frontier models）針對人類建構的指令版本，微調開源權重模型（open-weight models）的能力，表現最佳的系統達到了人類分數的一半左右。Anthropic也發表了一項自動化對齊研究的概念驗證，其中AI代理（AI agents）在小型安全研究問題上擊敗了Anthropic設計的基準。Clark將大多數AI研究描述為不起眼的「基本」工程任務：擴展、除錯、調整參數。他認為，這正是模型已經表現出色的領域。像Transformer架構這樣的典範轉移尚未來自AI系統。Clark在數學成果中看到了真正研究創造力的早期跡象，例如解決一個Erdos問題，但他謹慎地不誇大其詞。對齊風險恐迅速累積Clark表示，這些影響「深刻且在大眾媒體對AI研發的報導中討論不足」。他主要擔心的是，當今的對齊技術「在遞迴式自我改進下可能會失效，因為AI系統將變得比監督它們的人或系統聰明得多」。Clark指出幾個具體問題。訓練環境通常被設定成最有效的解決方案是作弊，「從而讓AI學會作弊是好的」。模型也可能透過產生分數來「假裝對齊」，讓我們認為它們以某種方式行事，「但實際上隱藏了它們的真實意圖」。系統甚至已經知道自己正在被測試。遞迴迴圈中也存在一個基本的複合錯誤問題：除非對齊方法「100%準確」，否則錯誤會累積。根據Clark的說法，一個99.9%準確的技術在50代後會下降到約95%，在500代後下降到約60%。如果AI系統開始塑造自身訓練的研究議程，人類可能沒有直覺來判斷其後果。「機器經濟」與研究品味問題在經濟方面，Clark預期在更大的人類經濟體內部，將會發展出一個「機器經濟」：由資本密集、勞動輕省的公司組成，其AI系統之間日益頻繁地相互交易。這引發了關於誰能獲得稀缺運算資源的問題，以及「快速變化的數位世界」與「緩慢變化的實體世界」相遇時的瓶頸，例如新醫療療法的藥物試驗。AI研究員Herbie Bradley最近在他的部落格 AI Pathways 上撰寫了關於自動化AI研究的文章，他反駁了Clark論點的一部分。許多跡象表明，模型將接管「初級研究科學家（RS）」的工作，但無法取代「研究品味與創造力」、願景建構，或制定「一個連貫的長期研究議程，透過一系列可行的突破來填補空白」等高階技能。Bradley認為，軟體工程整體而言，比狹義的AI研發具有更高的技能和複雜性上限。

Anthropic共同創辦人示警：AI自我改進恐超越人類監管能力