Artificial Analysis 推出的 AgentPerf 是業界首個代理式 AI 基準測試,為開發者、企業和基礎設施供應商提供了比較代理式 AI 系統效能的清晰方法。在首輪公布的結果中,NVIDIA Blackwell Ultra NVL72 平台在所有測試的代理式 AI 工作負載中均展現領先效能,每百萬瓦可運行比 NVIDIA Hopper 多 20 倍的代理。
代理式 AI 的工作負載與對話式 AI 截然不同。單次聊天完成就像一場短跑:一次大型語言模型(LLM)呼叫,一次回應。而代理的功能更像是一場接力賽:它將一個目標分解成許多步驟,並持續執行直到任務完成。
代理會將多個 LLM 呼叫和工具呼叫串聯起來,以收集上下文、觀察、推理並採取行動。
這導致數十到數百個 LLM 呼叫串聯在一起,每個呼叫都將不斷增長的上下文傳遞給下一個,並在每次交接時進行程式碼編譯與執行、資料庫搜尋和網路瀏覽等工具呼叫。這種複雜性不是簡單的疊加,而是乘數級的增長。
這種區別對於效能測量至關重要。現有的 AI 推論基準測試只測量單次 LLM 呼叫:LLM 對單一請求的響應速度,以及系統能處理多少同時請求。它們並非為代理式工作負載設計,因為在代理式工作負載中,串聯的 LLM 呼叫、工具呼叫延遲和不斷增長的上下文,會以與單次 LLM 呼叫截然不同的方式對加速運算系統造成壓力。
對於大規模建構和部署代理的公司來說,了解代理的響應速度、能同時部署多少個代理,以及每投入一美元和一瓦特電力,AI 基礎設施能提供多少有用的工作量,這些都至關重要。
NVIDIA GB300 NVL72 每百萬瓦可運行多 20 倍的代理
在首輪測試中,AgentPerf 使用 DeepSeek V4 Pro 測量代理式效能,這是一個大型的專家混合(MoE)模型,代表了當今最強大代理所使用的前沿模型類別。在此工作負載下,NVIDIA GB300 NVL72 在基準測試中提供了最高效能,每百萬瓦可運行比 NVIDIA HGX H200 系統多達 20 倍的代理。
無論是在每代理每秒 20 個或 60 個 token 的服務級目標下,NVIDIA GB300 NVL72 每百萬瓦支援的並發代理數量都遠超 NVIDIA H200。
這種效能優勢來自於全堆疊的極致協同設計。GB300 NVL72 將 72 個 GPU 連接到單一機架規模的系統中,使 DeepSeek V4 Pro 等大型 MoE 模型能夠大規模高效地分佈模型執行。
CUDA 核心透過重疊通訊和運算進一步加速此過程,因此協調專家之間的成本被吸收,而非增加到延遲中。
NVIDIA TensorRT LLM 在並發代理會話擴展時保持效率。例如,它將輸入處理與輸出生成分開,以便兩者可以獨立優化。
這些結果基於從頭開始建構的基準測試方法,旨在反映代理式 AI 在實際生產環境中的運作方式。
Artificial Analysis AgentPerf:基於真實世界代理式工作負載建構
AgentPerf 是根據真實的程式碼代理軌跡建構的:代理接收任務、讀取文件、編寫和編輯程式碼、執行命令並根據結果進行迭代——所有這些都來自 12 種以上程式語言的真實公共程式碼儲存庫。其長序列長度、工具呼叫模式和延遲都代表了真實世界的程式碼工作流程。
AgentPerf 隨後測量一個平台能同時支援多少個此類代理任務,同時滿足響應速度和輸出 token 速率的既定效能閾值。工具呼叫並未實際執行,而是使用代表性的 CPU 處理時間進行模擬,因此結果差異僅反映加速運算效能。
這些結果直接轉化為基礎設施決策:每個加速器和每百萬瓦電力可以運行多少個並發代理任務。對於大規模部署 AI 代理的企業來說,這些數字決定了特定基礎設施投資實際能帶來多少生產性工作。
NVIDIA 生態系夥伴利用 Blackwell 的領先效能
包括 Baseten、DeepInfra 和 Together AI 在內的領先推論供應商,已經在 NVIDIA Blackwell 上為 DeepSeek V4 Pro 等前沿模型提供代理式工作負載服務,並為現今的生產代理式應用程式提供動力。
Together AI 在 NVIDIA Blackwell 上為 Cursor 提供即時推論,Cursor 是一個由 AI 驅動的代理式程式碼平台。Cursor 的代理在開發者持續工作的同時,能偵錯問題、生成功能並執行重構。
DeepInfra 為 Pam.ai 提供動力,這是一個專為汽車經銷商設計的 AI 勞動力平台,它完全在 NVIDIA Blackwell 上部署代理,用於預訂服務預約、處理電話和執行外展銷售活動。
隨著 NVIDIA 和開源生態系持續優化推論軟體,代理式工作負載的效能和效率只會不斷提升。NVIDIA Vera Rubin 架構現已全面投入生產,帶來下一代基礎設施容量,以滿足大規模代理式 AI 不斷增長的需求。
