微軟今日上午宣布推出兩款新的文字大型語言模型(LLM):MAI-Thinking-1(專注於推理,總參數達 1 兆,其中 350 億為活躍參數,目前僅開放給「特定早期合作夥伴」)以及 MAI-Code-1-Flash(總參數 1370 億,其中 50 億為活躍參數,「專為 GitHub Copilot 和 VS Code 設計,以提供高效能和更低成本 [...] 將陸續推廣給 Visual Studio Code 中使用 GitHub Copilot 的個人用戶」)。
我目前尚未有機會試用這兩款模型。看到微軟發布參數規模相對較小的模型,這點非常有趣,特別是考量到目前大型模型的存取成本高昂。他們聲稱 MAI-Thinking-1 在「盲測的人類並排評估中優於 Sonnet 4.6」,對於一個 350 億參數的模型來說,這令人印象深刻,因為我甚至能在自己的筆記型電腦上執行比這更大的模型。
(更新:我完全搞錯了,請參閱下方說明。)此外值得注意的是:「我們從零開始,使用企業級、乾淨且具商業授權的資料訓練 [MAI-Thinking-1],並未從第三方模型中進行蒸餾。」對於 MAI-Code-1-Flash 也是如此:「它由微軟端到端地使用乾淨且適當授權的資料建構。」
我非常想了解更多關於這種「適當授權」的資料!這些是否是首批未經未授權網路資料訓練,卻普遍有用的程式碼專用模型呢?(更新:答案是否定的,請參閱下方說明。)更新:我最初發布的筆記搞錯了模型的規模。我誤讀了微軟的公告,將 MoE(混合專家模型)的活躍參數數量誤解為總參數數量,但 MAI-Code-1-Flash 的模型卡片顯示其總參數為 1370 億,活躍參數為 50 億,而 MAI-Thinking-1 的技術論文則揭示它是一個總參數 1 兆,活躍參數 350 億的模型。
我對此錯誤深感抱歉。更新 2:該技術論文從第 80 頁開始詳細描述了訓練資料。它與所有其他主要大型語言模型一樣,存在相同的授權問題:它是在公開網路的爬取資料上訓練的:「我們大部分的網路 HTML 語料庫來自專有爬取。在初步頁面發現和選擇之後,大約爬取並解析了 1.2 兆個頁面。
[...] 除了微軟標準政策第 2.4 節,我們還應用 UT1 黑名單(Prigent, 2026)來移除成人內容和盜版相關網域。總體而言,此過濾將語料庫從 1.2 兆頁面減少到 7940 億頁。鑑於網路上 AI 生成內容的普遍性,我們還使用專有的 AI 內容偵測模型對頁面進行評分,並透過人工檢查來識別包含大量 AI 生成內容的網域;這些網域會從訓練語料庫中過濾掉。」
「[...] 我們使用相同的管線處理 Common Crawl。[...] 經過過濾、去重、與專有網路語料庫合併,以及最後一輪的精確 URL 和內容級模糊去重後,Common Crawl 部分包含 242 億個頁面。」我對此篇報導處理得不夠好,這有點諷刺,因為我撰寫這篇文章時正身處微軟 Build 大會!對於在發布初步筆記前未能深入挖掘,我深感抱歉。
