以警示 AI 風險為核心的 AI 實驗室 Anthropic,正聲稱已觀察到 AI 不僅能編寫自身產品,甚至開始自我建構的「早期跡象」。
重要性:Anthropic 共同創辦人 Jack Clark 本週預測,到 2028 年底,AI 模型完全訓練其繼任者的可能性超過六成。Clark 告訴我們:「我所觀察到的技術趨勢是,其速度只會進一步加快。」在 Anthropic 研究所(The Anthropic Institute)的新研究議程中——該議程首先與我們分享,並於週四發布——該公司表示,他們正看到「AI 正在加速 AI 自身的研發」的跡象,這個過程被稱為遞歸式自我改進。Anthropic 研究人員認為世界應該知道這一點。
「我的預測是,到 2028 年底,我們很有可能擁有一套 AI 系統,你可以對它說:『製作一個更好的自己。』然後它就能完全自主地完成這項任務。」Clark 在舊金山的 Anthropic 總部告訴我們,他同時也是該研究所的負責人。「過去一直都是,技術外部的人類需要提出想法,然後將這些想法重新輸入技術中。如果我們擁有一種技術,它可以在內部產生改進自身的想法,那會發生什麼?這是一個全新的概念。」
這份五頁的文件警告可能出現「智慧爆炸」——這長期以來一直是 AI 安全圈內的一個理論術語。現在,它被寫進了 Anthropic 的官方文件中。Clark 告訴我們,智慧爆炸是指 AI 系統突然以驚人速度開始改進。這可能導致許多壞事(網路崩潰和生物攻擊),但也可能帶來許多好處:「當許多不同科學領域同時出現巨大的成長或豐饒時,你會怎麼做?」
他問道。「今天的機構在推動新藥候選物方面有非常狹窄的管道。如何在這種豐饒來臨之前,大幅擴大這些管道的規模?」
新發展:Anthropic 研究所既是研究部門,也是預警系統,其議程是與 Anthropic 的長期利益信託(Long-Term Benefit Trust)共同建立的。(Clark 也擔任「公益負責人」一職。)該研究議程聚焦於四個領域:
* 經濟擴散:工作、生產力、誰獲取收益。
* 威脅與韌性:網路、生物、監控。
* 野外 AI 系統:代理人、治理。
* AI 驅動的研發:遞歸式自我改進問題。
承諾:Anthropic 承諾將發布更多「關於我們在 Anthropic 的工作如何因新的 AI 工具而加速,以及 AI 系統潛在遞歸式自我改進的影響」的詳細資訊。翻譯一下:一家前沿實驗室公開承諾,當機器開始自我建構時,會告知大眾。如果 AI 正在自我建構,我們還需要 AI 公司嗎?
Clark 告訴我們:「我們和其他公司將會利用這項技術,努力讓它為世界帶來好處。」「幫助推動生物學、醫學或機器人學等領域的發展……將這項技術引導至那些難以取得進展的領域,例如癌症研究。」
言外之意:該議程詢問如何為智慧爆炸進行「應變演習」——一種「實際測試實驗室領導層、董事會和政府決策能力」的兵棋推演。實驗室不會為他們認為數十年後才會發生的問題制定應變演習。該研究所指出,冷戰期間,美國與克里姆林宮之間設有熱線,以防核危機。對於涉及 AI 系統的危機,可能也需要類似的地緣政治基礎設施。
Clark 說:「冷戰的一個教訓是,處理對人類生存產生影響的技術的敵對國家,找到了相互溝通的方式。」「我們在這裡也需要這樣做。」
對工作的意義:Anthropic 將每月發布關於 AI 如何重塑工作的報告,旨在作為「重大變革和顛覆的早期預警信號」。該文件詢問 AI 公司是否可能「與政府合作」,逐部門調整全行業的「開關」,以限制 AI 擴散,就像中央銀行抑制通膨一樣。一家 AI 實驗室公開考慮對其自身技術實施協調的產業政策槓桿——這是前所未有的。
Clark 說:「我們正在為成功做規劃。」「我們正在規劃一個技術變得像我們想像的那麼強大的世界,並在過程中處理濫用或失準等問題。」
現實檢視:這也是一種定位策略。Anthropic 以作為負責任的前沿實驗室而建立品牌。一個與其安全信託掛鉤的研究所,在任何模型升級到來之前,都能延伸這個品牌。Clark 告訴我們:「我們的動機一直都是:講述完整的故事。」「有時這意味著我們談論我們擔心的風險。有時這意味著我們將談論驚人、前所未有的豐饒……我只是試圖領先於我認為的下一個大問題,並讓 Anthropic 走在前沿。」
總結:這並不會讓遞歸式自我改進的承認變得不那麼真實。這使得 Anthropic 選擇將其寫下來變得更加有趣。
