微軟 MAI 模型登場：參數與訓練資料的真相揭露

微軟今日上午宣布推出兩款新的文字大型語言模型（LLM）：MAI-Thinking-1（專注於推理，總參數達 1 兆，其中 350 億為活躍參數，目前僅開放給「特定早期合作夥伴」）以及 MAI-Code-1-Flash（總參數 1370 億，其中 50 億為活躍參數，「專為 GitHub Copilot 和 VS Code 設計，以提供高效能和更低成本 [...] 將陸續推廣給 Visual Studio Code 中使用 GitHub Copilot 的個人用戶」）。

我目前尚未有機會試用這兩款模型。看到微軟發布參數規模相對較小的模型，這點非常有趣，特別是考量到目前大型模型的存取成本高昂。他們聲稱 MAI-Thinking-1 在「盲測的人類並排評估中優於 Sonnet 4.6」，對於一個 350 億參數的模型來說，這令人印象深刻，因為我甚至能在自己的筆記型電腦上執行比這更大的模型。

（更新：我完全搞錯了，請參閱下方說明。）此外值得注意的是：「我們從零開始，使用企業級、乾淨且具商業授權的資料訓練 [MAI-Thinking-1]，並未從第三方模型中進行蒸餾。」對於 MAI-Code-1-Flash 也是如此：「它由微軟端到端地使用乾淨且適當授權的資料建構。」

我非常想了解更多關於這種「適當授權」的資料！這些是否是首批未經未授權網路資料訓練，卻普遍有用的程式碼專用模型呢？（更新：答案是否定的，請參閱下方說明。）更新：我最初發布的筆記搞錯了模型的規模。我誤讀了微軟的公告，將 MoE（混合專家模型）的活躍參數數量誤解為總參數數量，但 MAI-Code-1-Flash 的模型卡片顯示其總參數為 1370 億，活躍參數為 50 億，而 MAI-Thinking-1 的技術論文則揭示它是一個總參數 1 兆，活躍參數 350 億的模型。

我對此錯誤深感抱歉。更新 2：該技術論文從第 80 頁開始詳細描述了訓練資料。它與所有其他主要大型語言模型一樣，存在相同的授權問題：它是在公開網路的爬取資料上訓練的：「我們大部分的網路 HTML 語料庫來自專有爬取。在初步頁面發現和選擇之後，大約爬取並解析了 1.2 兆個頁面。

[...] 除了微軟標準政策第 2.4 節，我們還應用 UT1 黑名單（Prigent, 2026）來移除成人內容和盜版相關網域。總體而言，此過濾將語料庫從 1.2 兆頁面減少到 7940 億頁。鑑於網路上 AI 生成內容的普遍性，我們還使用專有的 AI 內容偵測模型對頁面進行評分，並透過人工檢查來識別包含大量 AI 生成內容的網域；這些網域會從訓練語料庫中過濾掉。」

「[...] 我們使用相同的管線處理 Common Crawl。[...] 經過過濾、去重、與專有網路語料庫合併，以及最後一輪的精確 URL 和內容級模糊去重後，Common Crawl 部分包含 242 億個頁面。」我對此篇報導處理得不夠好，這有點諷刺，因為我撰寫這篇文章時正身處微軟 Build 大會！對於在發布初步筆記前未能深入挖掘，我深感抱歉。