AI 模型在短短兩年內,已從小學算術躍升至奧林匹亞競賽級別和研究數學。在 OpenAI 播客中,OpenAI 研究人員 Sebastian Bubeck 和 Ernest Ryu 解釋了為何數學已成為通往通用人工智慧(artificial general intelligence, AGI)的關鍵考驗。 兩年前,推理模型根本不存在。四年前,Bubeck 曾對 Google 的 Minerva 模型能在座標系統上畫線感到印象深刻。他向 Andrew Mayne 表示,如今這些系統正協助菲爾茲獎得主處理日常工作。Bubeck 提到,18 個月前的一場會議上,80% 的數學家認為大型語言模型(LLM)不可能解決研究級別的問題。 前加州大學洛杉磯分校(UCLA)數學教授 Ernest Ryu 表示,他利用 ChatGPT 在三個晚上共十二小時內,解決了一個關於最佳化理論中 Nesterov 方法、長達 42 年的未解難題。此前,他已在沒有 AI 的情況下投入超過 40 小時,卻毫無進展。Ryu 在此過程中扮演驗證者的角色,捕捉錯誤並引導對話朝有潛力的方向發展。 為何數學成為 AGI 的基準 對 Bubeck 而言,數學成為 AGI 進展的衡量標準並非偶然。它恰好要求通用智慧系統所需的能力。數學證明需要數小時、數天甚至數年漫長且連貫的推理,鏈條中任何一個錯誤都會摧毀整個論證,無論其餘部分多麼正確。任何能處理此類問題的系統,都必須具備發現並修正自身錯誤的能力。 這正是研究人員希望將數學訓練中獲得的能力,推廣應用到生物學、材料科學等其他領域的原因。Bubeck 將其比喻為人類教育方式:學生學習數學並非為了將來撰寫證明,而是因為這門學科迫使他們進行邏輯思考。 數學作為基準也具有實際優勢。問題陳述清晰,答案可供驗證,且無人會爭論結果是否正確。Bubeck 提出了「AGI 時間」的概念:兩年前,模型能模擬學生的思維數分鐘;如今,已可達數天甚至一週。下一個目標是數週和數月。 Bubeck 表示,OpenAI 的訓練方法並非專為數學設計,而是通用的,這意味著其他科學領域也應隨之進步。研究人員正在建立一個「自動化研究員」,使其能夠長時間獨立處理問題。 埃爾德什問題及其意義之爭 Bubeck 和 Ryu 也深入探討了埃爾德什問題,這是已故匈牙利數學家留下的一系列未解問題。Bubeck 表示,內部模型最初透過深入的文獻搜尋,找到了十個被標記為未解問題的解決方案。他關於此事的[誤導性推文](https://the-decoder.com/leading-openai-researcher-announced-a-gpt-5-math-breakthrough-that-never-happened/)引發了與 Google 執行長 Demis Hassabis 的公開爭論,因為許多人將其解讀為 OpenAI 已經產生了新證明的說法。Bubeck 指出,截至目前,ChatGPT 和內部模型實際上已經產生了[十多個真正值得在學術期刊上發表的新解決方案](https://the-decoder.com/openais-gpt-5-4-pro-reportedly-solves-a-longstanding-open-erdos-math-problem-in-under-two-hours/)。 曾經看似不切實際的主張,如今已成為現實,且進展速度正在加快。Bubeck 認為這證明了模型正從重組現有知識,躍升到產生新的數學成果。儘管關於科學進步是否僅僅是巧妙的重組加上一點推理的哲學問題仍懸而未決。 風險:心智退化與假證明 兩位研究人員都警告不要膚淺地使用這些工具。他們認為,專業知識比以往任何時候都更重要,因為只有受過訓練的數學家才能有效地利用這些模型。非數學家在社群媒體上發布冗長的 AI 生成證明通常是錯誤的。Ryu 在程式設計領域也看到了相同的模式,整整一代人正在失去使用除錯工具(debuggers)的能力。 Bubeck 表示,聲稱不再需要科學家的說法是危險的。學術機構需要積極地重新確立其角色。同時,AI 可以加速證明驗證——這是一個目前需要數年時間的過程——並標記已發表論文中的問題。