圖靈獎得主 Richard Sutton 認為,一般的生成式 AI 缺乏科學發現的關鍵能力:它無法評估並發展自己的成果。大型語言模型、圖像生成器和影片模型從海量範例中學習,並產生與之相似的輸出。Sutton 表示,當這些輸出表現良好時,通常歸功於其來源材料:模型所學習的文本、圖像或資料。
當輸出真正具有新穎性時,它們便超越了這些材料。對於事實性查詢而言,這被稱為「幻覺」。Sutton 引用了一個老研究人員的笑話來闡述他的批評:「這項工作既新穎又好。不幸的是,好的部分不新穎,而新穎的部分卻不好。」Sutton 說,這個診斷適用於當今生成式 AI 的大部分情況。
它能模仿有用的事物或隨機產生新事物,但無法自行判斷哪些新想法是真正好的。Sutton 並不否認生成式 AI 在摘要、研究、助理或娛樂方面的實用性。新穎性往往甚至不是目標:摘要不應憑空捏造事實,研究也不應偷偷加入額外的主張。Sutton 表示:「即使生成式 AI 只是模仿,但如果它比被模仿的事物更快、更便宜、更小、更具客製化彈性或更容易複製,它仍然能極其有用。」
模仿在科學領域力有未逮Sutton 認為,這個界線對於普遍的科學領域最為重要,因為科學的重點不在於重現已知事物,而是要發現新事物、測試它們,並將其轉化為持久的知識。Sutton 將真正的發現描述為一個三步驟的過程:變異(variation)、評估(evaluation)和選擇性保留(selective retention)。
一個系統必須產生不同的選項,測試它們,並持續使用有效的方法。Sutton 指出,這個原則存在於演化、科學方法、規劃、搜尋和強化學習中。純生成式 AI 最缺乏的就是評估。語言和圖像模型確實能產生不同的變體。但如果沒有測試,就無法選出最好的,也無法實現發現。
Sutton 說:「新穎性稍縱即逝,如果其價值未被認可,它就會消逝並被遺忘。」評估可以來自人類,例如當使用者從多個 AI 生成的選項中挑選出最佳圖像時。但它也可以來自一個明確的目標:將死、形式上有效的證明、成功的程式執行,或在模擬環境中獲得高獎勵。
只有這類回饋才能將單純的生成轉變為搜尋和發現的過程。AlphaGo、AlphaFold 和 Claude Code 展現了差異Sutton 表示,一些超越純生成式 AI 的系統已經「具備真正的創造力和真正的發現能力」。他舉例說明,如 AlphaGo 及其著名的第 37 步、AlphaZero 獨特的西洋棋風格、AlphaFold 在蛋白質結構預測方面的應用、AlphaProof 在數學領域的表現、Claude Code 在程式設計中的應用,以及 GT-Sophy 在模擬賽車中的表現。
這些系統的共同點是具備一個超越純文本或圖像生成的評估迴圈。圍棋的一步棋要嘛提高勝率,要嘛沒有。數學步驟可以被形式化驗證,或者不能。程式碼要嘛通過測試並正確運行,要嘛失敗。這使得選擇和追求更好的解決方案成為可能。Sutton 說:「所有這些系統都具備一些額外功能,使其能夠實現真正的創造力和真正的發現。」
Sutton 的批評明確針對「一般」的生成式 AI:那些在運行時不評估自身輸出的模型。結合了搜尋、驗證器、工具、強化學習或形式化驗證器的語言模型,可以成為真正發現系統的一部分。但這種結構能延伸到程式設計、遊戲和明確可測試任務之外的程度,仍是一個懸而未決的問題。
Sutton 認為類神經網路的訓練方式也存在另一個問題。標準網路從隨機設定開始,然後從資料中學習。這種初始的隨機性是變異的來源,但主要發生在初期。隨著時間推移,模型可能會因為內部結構變得僵化而失去學習能力。Sutton 主張,一個真正的學習系統不應只被訓練一次。
它需要持續更新其結構:嘗試新的可能性,保留有效的,並淘汰無效的。他的目標是創造一種 AI,能夠在長時間內自行管理變異、評估和選擇性保留。「讓我們將創造力與發現完全自動化!」他說。Sutton 長期以來一直批評 AI 產業的發展方向Sutton 最近更廣泛地批評 AI 產業,稱其「迷失了方向」。
這位研究人員主要反對過度專注於不斷擴大的語言模型,這些模型在訓練期間吸收了大量知識,但卻不會隨著時間從自身經驗中學習。相反地,Sutton 呼籲開發能夠持續與環境互動、從中學習、建立內部世界模型並規劃新策略的 AI 代理。元學習(Meta-learning)也納入他的願景:系統應該學習如何更好地學習,而不僅僅是模仿單一任務。
在他的 Oak 架構中,Sutton 闡述了實現強大 AI 系統的可能途徑。核心思想是,代理從沒有內建專業知識開始,在環境中行動,獲得回饋,並隨著時間推移形成越來越抽象的概念。有用的概念成為下一階段學習的基礎。Sutton 表示,實現這一目標的一大前提是可靠的持續學習。當今的類神經網路在吸收新知識時,往往難以避免覆蓋舊知識或失去適應能力。
