每個突破性的 AI 模型都始於訓練過程,而執行這些訓練任務的基礎設施,決定了團隊迭代的速度、能建構的模型規模,以及任務是否能可靠地完成。
隨著模型規模、複雜度和智慧程度不斷提升,對訓練基礎設施的需求也隨之增加。
在 MLPerf Training 6.0 中,NVIDIA Blackwell 平台在所有類別中均取得領先。這是一系列嚴謹、經過同行評審的產業基準測試,旨在評估 AI 訓練效能。Blackwell 平台展現了:
在所有基準測試中,訓練時間最快。
使用 NVIDIA Blackwell NVL72 系統,實現了 8,192 個 GPU 的最大規模訓練。
唯一一個提交所有七項基準測試結果的平台。
NVIDIA 透過極致的協同設計,將效能、規模和可靠性整合到單一平台中。這使得 AI 模型開發者能夠更快地推出尖端模型,最大程度地降低訓練成本,並提早開始創造收益。
效能:所有基準測試中訓練時間最快。MLPerf Training 6.0 新增了兩個混合專家模型(MoE)預訓練工作負載:DeepSeek-V3 671B 和 GPT-OSS-20B,反映了 MoE 架構日益重要的地位。NVIDIA 平台是唯一提交所有基準測試結果的平台,並在所有七項測試中提供了最快的訓練時間。
在本輪測試中,NVIDIA 提交了 NVIDIA GB200 NVL72 和 GB300 NVL72 機架級系統的結果。在每個機架級系統中,第五代 NVIDIA NVLink 交換器以高頻寬連接所有 72 個 GPU,形成一個統一的運算和記憶體池,使其能夠像一個巨大的 GPU 一樣運作。
大規模 MoE 訓練面臨與 MoE 推論相同的「所有對所有」通訊挑戰,即 token 必須在 GPU 之間路由以到達正確的專家子網路。NVLink 的頻寬優勢正是實現大規模快速高效通訊的關鍵。
NVIDIA 還展示了 NVFP4 訓練方法,該方法在滿足嚴格的準確性要求下,提高了大規模和小型預訓練以及微調工作負載的效能。NVIDIA 持續推動不同模型架構的低精度訓練創新,最近使用 NVFP4 預訓練了龐大的 5500 億參數 NVIDIA Nemotron 3 Ultra 模型。
NVIDIA GB300 NVL72 效能比 GB200 NVL72 提升高達 1.6 倍:在本輪測試中,GB300 NVL72 在相同規模下,訓練速度比 GB200 NVL72 快了高達 1.6 倍。Blackwell Ultra 的關鍵功能,例如 NVFP4 帶來更高的運算密度、擴大的記憶體容量以及更高的功耗上限,使 GPU 能夠維持峰值效能,是這次效能提升的主要原因。
規模:MLPerf Training 中最大的 Blackwell 叢集。為了支援大規模分散式訓練,NVIDIA 提供了兩個互補的橫向擴展網路平台:NVIDIA Quantum InfiniBand 和 NVIDIA Spectrum-X Ethernet。這為資料中心提供了靈活性,可以建構針對其基礎設施優化的大規模叢集。
在套件中最大的 MoE 模型 DeepSeek-V3 671B 上,NVIDIA 使用 GB200 NVL72 系統將其提交規模擴展到 8,192 個 GPU,這是迄今為止 MLPerf Training 中最大的 Blackwell 基礎提交。
NVIDIA 還提交了使用 NVIDIA GB200 NVL72 系統在 Llama 3.1 405B(套件中最大的密集型 LLM 之一)上,5,120 個 GPU 的結果。
本輪測試結果也反映了 NVIDIA 與其合作夥伴在系統架構、網路和軟體方面的深度協同工程:
Microsoft Azure 使用 GB200 NVL72 系統將 Llama 3.1 405B 訓練擴展到 8,192 個 GPU,並在 7.07 分鐘內達到參考品質目標,這是該基準測試中最快的訓練時間。
CoreWeave 實現了 DeepSeek-V3 671B 最快的訓練時間,使用連接 Spectrum-X Ethernet 網路的 GB300 NVL72 系統,在 8,192 個 GPU 規模下,於 2.02 分鐘內達到品質目標。
大規模可靠性:為生產環境而生。在生產訓練環境中,運行可能持續數週或數月,涉及數十萬個 GPU。在這種規模下,有效的訓練吞吐量取決於系統的效能以及使其長期可重現的彈性。
上述 MLPerf Training v6.0 結果證明了 NVIDIA 平台的效能。在彈性方面,NVIDIA 的平台從兩個維度進行設計:
減少中斷:NVIDIA GPU 的設計旨在避免故障發生。在 GPU 抵達資料中心之前,NVIDIA 會在 30 多個製造測試階段對其進行篩選,以提早發現潛在故障。部署後,可靠性、可用性和可維護性引擎(Reliability, Availability and Serviceability Engine)會監控幾乎整個晶片,並且自我修復功能會自動繞過檢測到的故障,而不會中斷工作負載。
在網路層面,Spectrum-X Ethernet 會在毫秒內重新路由故障連結,保持網路結構健康,而不會中斷任務。
發生中斷時更快恢復:NVIDIA Resiliency Extension (NVRx) 最大程度地減少了故障發生時損失的時間,其功能涵蓋整個叢集的故障檢測、恢復和健康監測。它會自動檢測和管理效能不佳的節點,防止它們拖慢整個叢集。當節點發生中斷時,系統不會重新啟動整個任務,而是從最近的檢查點(即訓練狀態的儲存快照)恢復。
尖端 AI 建構於 NVIDIA 之上。NVIDIA 生態系統合作夥伴也在本輪測試中廣泛參與,來自 19 個組織提交了引人注目的結果,包括 ASUSTeK、Microsoft Azure、Cisco、CoreWeave、Dell Technologies、Fujitsu、Giga Computing、Google Cloud、Hewlett Packard Enterprise、Inventec、Krai、Lambda、Nebius、Netweb Technologies India Ltd.、Quanta Cloud Computing (QCT)、ScitiX、Supermicro 和 TTA。
其中許多合作夥伴正在 NVIDIA 基礎設施上運行一些要求最嚴苛的 AI 訓練工作負載。
CoreWeave 將其 NVIDIA 基礎設施部署在 Dell PowerRack 系統中,搭配 Dell PowerEdge 伺服器,承載了其中幾項工作負載。Cohere 在 GB200 NVL72 上實現了其 North 代理式 AI 平台 3 倍的訓練速度提升。
Midjourney 在 Blackwell 叢集上訓練了其 v8 圖像生成模型後,現在正在 CoreWeave 上擴展大量的 Blackwell Ultra GPU,以訓練即將推出的圖像和影片模型。
在 Google Cloud 上,Thinking Machines Lab 發現 GB300 NVL72 比前一代 GPU 訓練和服務速度快了 2 倍,加速了尖端模型研究和強化學習工作流程。
Nebius 在其 AI 雲端上運行 NVIDIA Blackwell 和 Blackwell Ultra 基礎設施,使 Higgsfield 將模型訓練時間縮短了 30%。Higgsfield 的平台現在服務 2200 萬用戶,每天生成超過 600 萬件 AI 內容。
如需深入了解 MLPerf Training 6.0 結果及其背後的優化技術細節,請閱讀這篇技術部落格文章。
