每年,參加國際數學奧林匹亞(IMO)的國家都會帶來一本他們最優秀、最具原創性的題目冊。這些題目冊會在代表團之間分享,然後悄然消失。從未有人系統性地收集、整理並公開這些題目,無論是對測試數學推理極限的 AI 研究人員,還是對全球各地主要靠自己訓練的參賽學生而言,都是如此。 現在,麻省理工學院電腦科學與人工智慧實驗室(CSAIL)、阿卜杜拉國王科技大學(KAUST)以及 HUMAIN 公司的研究人員已經完成了這項工作。 MathNet 是有史以來規模最大、品質最高的證明題數學資料集。它包含超過三萬道由專家編寫的題目與解答,涵蓋 47 個國家、17 種語言和 143 場競賽,其規模是同類第二大資料集的五倍。這項研究將於本月稍後在巴西舉行的國際學習表徵會議(ICLR)上發表。 MathNet 的獨特之處不僅在於其規模,更在於其廣度。以往的奧林匹亞級資料集幾乎只收錄來自美國和中國的競賽題目。MathNet 則橫跨六大洲數十個國家,涵蓋 17 種語言,包含文字和圖像形式的題目與解答,並涵蓋了四十年來的競賽數學。其目標是捕捉全球數學社群中存在的各種數學視角和解題傳統,而不僅僅是最顯而易見的那些。 論文主要作者、麻省理工學院博士生 Shaden Alshammari 表示:「每個國家都會帶來一本他們最新穎、最有創意的題目冊。他們會互相分享這些題目冊,但從未有人努力將它們收集、整理並上傳到網路上。」 建立 MathNet 需要追蹤 1,595 份 PDF 文件,總計超過 25,000 頁,涵蓋了數位文件和數十年歷史的掃描文件,涉及十多種語言。其中很大一部分檔案來自一個意想不到的來源:Navid Safaei,一位長期的 IMO 社群成員和共同作者,他自 2006 年以來一直手工收集和掃描這些題目冊。他的個人檔案構成了該資料集的重要基礎。 資料來源與規模同樣重要。大多數現有的數學資料集從 Art of Problem Solving (AoPS) 等社群論壇獲取題目,而 MathNet 則完全來自官方國家競賽題目冊。這些題目冊中的解答由專家撰寫並經過同行評審,通常長達數頁,作者會闡述解決同一問題的多種方法。這種深度為 AI 模型學習數學推理提供了比社群來源資料集中較短、非正式解答更豐富的訊號。這也意味著該資料集對學生來說確實有用:任何準備 IMO 或國家級競賽的人,現在都可以存取來自世界各地、高品質題目和詳盡解答的集中式、可搜尋的集合。 Alshammari 本人也曾以學生身分參加 IMO,她表示:「我記得許多學生都是靠個人努力。他們國家沒有人為這類競賽訓練他們。我們希望這能為他們提供一個集中、高品質的題目和解答來源,供他們學習。」 該團隊在 IMO 社群中擁有深厚的根基。共同作者 Sultan Albarakati 目前擔任 IMO 董事會成員,研究人員正努力將該資料集直接分享給 IMO 基金會。為了驗證資料集,他們組建了一個由來自亞美尼亞、俄羅斯、烏克蘭、越南和波蘭等國家,超過 30 名人類評估員組成的評分小組,他們協同合作驗證了數千個解答。 瑞士 IMO 副領隊 Tanish Patil 表示:「MathNet 資料庫有潛力成為學生和尋求新題目或難題解答的領隊們的絕佳資源。儘管其他奧林匹亞題目檔案確實存在(特別是 AoPS 上的競賽收藏論壇),但這些資源缺乏標準化的格式系統、經過驗證的解答以及主題和理論所需的重要題目元資料。這也將很有趣地觀察該資料集如何用於提升推理模型的效能,以及我們是否很快就能可靠地回答在創建新穎奧林匹亞題目時的一個重要問題:判斷一個問題是否真正原創。」 MathNet 也作為評估 AI 效能的嚴格基準,其結果揭示了比近期關於 AI 數學實力頭條新聞所暗示的更複雜的局面。前沿模型確實取得了非凡的進步:據報導,有些模型在 IMO 中達到了金牌水準,並且在標準基準測試中,它們現在能解決大多數人類都會感到困惑的問題。但 MathNet 顯示,這種進步是不均衡的。即使是測試中表現最好的模型 GPT-5,在 MathNet 包含 6,400 道題目的主要基準測試中,平均得分約為 69.3%,幾乎有三分之一的奧林匹亞級問題未能解決。當題目包含圖形時,所有模型的表現都會顯著下降,這暴露了視覺推理即使對於最強大的模型來說,也是一個持續的弱點。 一些開源模型在蒙古語題目上得分為 0%,這突顯了當前 AI 系統儘管整體實力強勁,但在另一個維度上的不足。 Alshammari 表示:「GPT 模型在英語和其他語言方面的表現同樣出色。但許多開源模型在蒙古語等較不常見的語言上完全失敗。」 MathNet 的多樣性也旨在解決 AI 模型學習數學方式上的一個更深層次的限制。當訓練資料偏向英語和中文題目時,模型吸收的是數學文化中狹窄的一部分。一道羅馬尼亞的組合學問題或一道巴西的數論問題,可能從完全不同的角度切入相同的基本概念。研究人員認為,接觸這種廣度,能使人類和 AI 系統都成為更好的數學思考者。 除了問題解決,MathNet 還引入了一個檢索基準,旨在測試模型能否識別兩個問題是否共享相同的底層數學結構,這項能力對於 AI 發展和數學社群本身都至關重要。多年來,近乎重複的問題曾出現在真實的 IMO 考試中,因為