NVIDIA Blackwell 平台橫掃 MLPerf Training 6.0：最快、最大、最強

每個突破性的 AI 模型都始於訓練過程，而執行這些訓練任務的基礎設施，決定了團隊迭代的速度、能建構的模型規模，以及任務是否能可靠地完成。

隨著模型規模、複雜度和智慧程度不斷提升，對訓練基礎設施的需求也隨之增加。

在 MLPerf Training 6.0 中，NVIDIA Blackwell 平台在所有類別中均取得領先。這是一系列嚴謹、經過同行評審的產業基準測試，旨在評估 AI 訓練效能。Blackwell 平台展現了：

在所有基準測試中，訓練時間最快。

使用 NVIDIA Blackwell NVL72 系統，實現了 8,192 個 GPU 的最大規模訓練。

唯一一個提交所有七項基準測試結果的平台。

NVIDIA 透過極致的協同設計，將效能、規模和可靠性整合到單一平台中。這使得 AI 模型開發者能夠更快地推出尖端模型，最大程度地降低訓練成本，並提早開始創造收益。

效能：所有基準測試中訓練時間最快。MLPerf Training 6.0 新增了兩個混合專家模型（MoE）預訓練工作負載：DeepSeek-V3 671B 和 GPT-OSS-20B，反映了 MoE 架構日益重要的地位。NVIDIA 平台是唯一提交所有基準測試結果的平台，並在所有七項測試中提供了最快的訓練時間。

在本輪測試中，NVIDIA 提交了 NVIDIA GB200 NVL72 和 GB300 NVL72 機架級系統的結果。在每個機架級系統中，第五代 NVIDIA NVLink 交換器以高頻寬連接所有 72 個 GPU，形成一個統一的運算和記憶體池，使其能夠像一個巨大的 GPU 一樣運作。

大規模 MoE 訓練面臨與 MoE 推論相同的「所有對所有」通訊挑戰，即 token 必須在 GPU 之間路由以到達正確的專家子網路。NVLink 的頻寬優勢正是實現大規模快速高效通訊的關鍵。

NVIDIA 還展示了 NVFP4 訓練方法，該方法在滿足嚴格的準確性要求下，提高了大規模和小型預訓練以及微調工作負載的效能。NVIDIA 持續推動不同模型架構的低精度訓練創新，最近使用 NVFP4 預訓練了龐大的 5500 億參數 NVIDIA Nemotron 3 Ultra 模型。

NVIDIA GB300 NVL72 效能比 GB200 NVL72 提升高達 1.6 倍：在本輪測試中，GB300 NVL72 在相同規模下，訓練速度比 GB200 NVL72 快了高達 1.6 倍。Blackwell Ultra 的關鍵功能，例如 NVFP4 帶來更高的運算密度、擴大的記憶體容量以及更高的功耗上限，使 GPU 能夠維持峰值效能，是這次效能提升的主要原因。

規模：MLPerf Training 中最大的 Blackwell 叢集。為了支援大規模分散式訓練，NVIDIA 提供了兩個互補的橫向擴展網路平台：NVIDIA Quantum InfiniBand 和 NVIDIA Spectrum-X Ethernet。這為資料中心提供了靈活性，可以建構針對其基礎設施優化的大規模叢集。

在套件中最大的 MoE 模型 DeepSeek-V3 671B 上，NVIDIA 使用 GB200 NVL72 系統將其提交規模擴展到 8,192 個 GPU，這是迄今為止 MLPerf Training 中最大的 Blackwell 基礎提交。

NVIDIA 還提交了使用 NVIDIA GB200 NVL72 系統在 Llama 3.1 405B（套件中最大的密集型 LLM 之一）上，5,120 個 GPU 的結果。

本輪測試結果也反映了 NVIDIA 與其合作夥伴在系統架構、網路和軟體方面的深度協同工程：

Microsoft Azure 使用 GB200 NVL72 系統將 Llama 3.1 405B 訓練擴展到 8,192 個 GPU，並在 7.07 分鐘內達到參考品質目標，這是該基準測試中最快的訓練時間。

CoreWeave 實現了 DeepSeek-V3 671B 最快的訓練時間，使用連接 Spectrum-X Ethernet 網路的 GB300 NVL72 系統，在 8,192 個 GPU 規模下，於 2.02 分鐘內達到品質目標。

大規模可靠性：為生產環境而生。在生產訓練環境中，運行可能持續數週或數月，涉及數十萬個 GPU。在這種規模下，有效的訓練吞吐量取決於系統的效能以及使其長期可重現的彈性。

上述 MLPerf Training v6.0 結果證明了 NVIDIA 平台的效能。在彈性方面，NVIDIA 的平台從兩個維度進行設計：

減少中斷：NVIDIA GPU 的設計旨在避免故障發生。在 GPU 抵達資料中心之前，NVIDIA 會在 30 多個製造測試階段對其進行篩選，以提早發現潛在故障。部署後，可靠性、可用性和可維護性引擎（Reliability, Availability and Serviceability Engine）會監控幾乎整個晶片，並且自我修復功能會自動繞過檢測到的故障，而不會中斷工作負載。

在網路層面，Spectrum-X Ethernet 會在毫秒內重新路由故障連結，保持網路結構健康，而不會中斷任務。

發生中斷時更快恢復：NVIDIA Resiliency Extension (NVRx) 最大程度地減少了故障發生時損失的時間，其功能涵蓋整個叢集的故障檢測、恢復和健康監測。它會自動檢測和管理效能不佳的節點，防止它們拖慢整個叢集。當節點發生中斷時，系統不會重新啟動整個任務，而是從最近的檢查點（即訓練狀態的儲存快照）恢復。

尖端 AI 建構於 NVIDIA 之上。NVIDIA 生態系統合作夥伴也在本輪測試中廣泛參與，來自 19 個組織提交了引人注目的結果，包括 ASUSTeK、Microsoft Azure、Cisco、CoreWeave、Dell Technologies、Fujitsu、Giga Computing、Google Cloud、Hewlett Packard Enterprise、Inventec、Krai、Lambda、Nebius、Netweb Technologies India Ltd.、Quanta Cloud Computing (QCT)、ScitiX、Supermicro 和 TTA。

其中許多合作夥伴正在 NVIDIA 基礎設施上運行一些要求最嚴苛的 AI 訓練工作負載。

CoreWeave 將其 NVIDIA 基礎設施部署在 Dell PowerRack 系統中，搭配 Dell PowerEdge 伺服器，承載了其中幾項工作負載。Cohere 在 GB200 NVL72 上實現了其 North 代理式 AI 平台 3 倍的訓練速度提升。

Midjourney 在 Blackwell 叢集上訓練了其 v8 圖像生成模型後，現在正在 CoreWeave 上擴展大量的 Blackwell Ultra GPU，以訓練即將推出的圖像和影片模型。

在 Google Cloud 上，Thinking Machines Lab 發現 GB300 NVL72 比前一代 GPU 訓練和服務速度快了 2 倍，加速了尖端模型研究和強化學習工作流程。

Nebius 在其 AI 雲端上運行 NVIDIA Blackwell 和 Blackwell Ultra 基礎設施，使 Higgsfield 將模型訓練時間縮短了 30%。Higgsfield 的平台現在服務 2200 萬用戶，每天生成超過 600 萬件 AI 內容。

如需深入了解 MLPerf Training 6.0 結果及其背後的優化技術細節，請閱讀這篇技術部落格文章。