圖靈獎得主 Richard Sutton：純生成式 AI 難以實現真正的科學發現

圖靈獎得主 Richard Sutton 認為，一般的生成式 AI 缺乏科學發現的關鍵能力：它無法評估並發展自己的成果。大型語言模型、圖像生成器和影片模型從海量範例中學習，並產生與之相似的輸出。Sutton 表示，當這些輸出表現良好時，通常歸功於其來源材料：模型所學習的文本、圖像或資料。

當輸出真正具有新穎性時，它們便超越了這些材料。對於事實性查詢而言，這被稱為「幻覺」。Sutton 引用了一個老研究人員的笑話來闡述他的批評：「這項工作既新穎又好。不幸的是，好的部分不新穎，而新穎的部分卻不好。」Sutton 說，這個診斷適用於當今生成式 AI 的大部分情況。

它能模仿有用的事物或隨機產生新事物，但無法自行判斷哪些新想法是真正好的。Sutton 並不否認生成式 AI 在摘要、研究、助理或娛樂方面的實用性。新穎性往往甚至不是目標：摘要不應憑空捏造事實，研究也不應偷偷加入額外的主張。Sutton 表示：「即使生成式 AI 只是模仿，但如果它比被模仿的事物更快、更便宜、更小、更具客製化彈性或更容易複製，它仍然能極其有用。」

模仿在科學領域力有未逮Sutton 認為，這個界線對於普遍的科學領域最為重要，因為科學的重點不在於重現已知事物，而是要發現新事物、測試它們，並將其轉化為持久的知識。Sutton 將真正的發現描述為一個三步驟的過程：變異（variation）、評估（evaluation）和選擇性保留（selective retention）。

一個系統必須產生不同的選項，測試它們，並持續使用有效的方法。Sutton 指出，這個原則存在於演化、科學方法、規劃、搜尋和強化學習中。純生成式 AI 最缺乏的就是評估。語言和圖像模型確實能產生不同的變體。但如果沒有測試，就無法選出最好的，也無法實現發現。

Sutton 說：「新穎性稍縱即逝，如果其價值未被認可，它就會消逝並被遺忘。」評估可以來自人類，例如當使用者從多個 AI 生成的選項中挑選出最佳圖像時。但它也可以來自一個明確的目標：將死、形式上有效的證明、成功的程式執行，或在模擬環境中獲得高獎勵。

只有這類回饋才能將單純的生成轉變為搜尋和發現的過程。AlphaGo、AlphaFold 和 Claude Code 展現了差異Sutton 表示，一些超越純生成式 AI 的系統已經「具備真正的創造力和真正的發現能力」。他舉例說明，如 AlphaGo 及其著名的第 37 步、AlphaZero 獨特的西洋棋風格、AlphaFold 在蛋白質結構預測方面的應用、AlphaProof 在數學領域的表現、Claude Code 在程式設計中的應用，以及 GT-Sophy 在模擬賽車中的表現。

這些系統的共同點是具備一個超越純文本或圖像生成的評估迴圈。圍棋的一步棋要嘛提高勝率，要嘛沒有。數學步驟可以被形式化驗證，或者不能。程式碼要嘛通過測試並正確運行，要嘛失敗。這使得選擇和追求更好的解決方案成為可能。Sutton 說：「所有這些系統都具備一些額外功能，使其能夠實現真正的創造力和真正的發現。」

Sutton 的批評明確針對「一般」的生成式 AI：那些在運行時不評估自身輸出的模型。結合了搜尋、驗證器、工具、強化學習或形式化驗證器的語言模型，可以成為真正發現系統的一部分。但這種結構能延伸到程式設計、遊戲和明確可測試任務之外的程度，仍是一個懸而未決的問題。

Sutton 認為類神經網路的訓練方式也存在另一個問題。標準網路從隨機設定開始，然後從資料中學習。這種初始的隨機性是變異的來源，但主要發生在初期。隨著時間推移，模型可能會因為內部結構變得僵化而失去學習能力。Sutton 主張，一個真正的學習系統不應只被訓練一次。

它需要持續更新其結構：嘗試新的可能性，保留有效的，並淘汰無效的。他的目標是創造一種 AI，能夠在長時間內自行管理變異、評估和選擇性保留。「讓我們將創造力與發現完全自動化！」他說。Sutton 長期以來一直批評 AI 產業的發展方向Sutton 最近更廣泛地批評 AI 產業，稱其「迷失了方向」。

這位研究人員主要反對過度專注於不斷擴大的語言模型，這些模型在訓練期間吸收了大量知識，但卻不會隨著時間從自身經驗中學習。相反地，Sutton 呼籲開發能夠持續與環境互動、從中學習、建立內部世界模型並規劃新策略的 AI 代理。元學習（Meta-learning）也納入他的願景：系統應該學習如何更好地學習，而不僅僅是模仿單一任務。

在他的 Oak 架構中，Sutton 闡述了實現強大 AI 系統的可能途徑。核心思想是，代理從沒有內建專業知識開始，在環境中行動，獲得回饋，並隨著時間推移形成越來越抽象的概念。有用的概念成為下一階段學習的基礎。Sutton 表示，實現這一目標的一大前提是可靠的持續學習。當今的類神經網路在吸收新知識時，往往難以避免覆蓋舊知識或失去適應能力。