ITBench-AA 基準測試揭示：頂尖 AI 模型在企業 IT 代理任務中表現未達五成

主要發現：ITBench-AA SRE 概述：重點摘要 ITBench-AA 是與 IBM 合作，基於其 ITBench 基準測試所建立。Artificial Analysis 和 IBM 軟體創新實驗室正推出 ITBench-AA，這是一系列新基準測試中的首個，旨在評估模型在企業 IT 代理任務中的表現，首先從站點可靠性工程（SRE）任務開始，而領先模型在此類任務中得分均低於 50%。

ITBench-AA 的 SRE 任務基準測試模型在 Kubernetes 事件回應方面的表現，其中模型和代理必須透過讀取日誌、追蹤依賴關係並識別複雜基礎設施中的根本原因實體來診斷即時系統。底層的 ITBench 資料集由 IBM 開發，利用了其在企業 IT 營運方面的深厚專業知識。

在過去六個月中，Artificial Analysis 與 IBM 密切合作，為領先 AI 評估開發了該資料集的實作，從站點可靠性工程（SRE）開始，並將隨著時間推移擴展到財務營運（FinOps）和資訊安全長（CISO）任務。

主要發現：

Claude Opus 4.7 (Adaptive Reasoning, Max Effort) 以 47% 的得分領先，其次是 GPT-5.5 (xhigh) 的 46% 和 Qwen3.7 Max 的 42%。所有領先模型得分均低於 50%，這使得 ITBench-AA SRE 成為我們套件中飽和度最低的代理式基準測試之一。

作為參考，領先模型在 Terminal-Bench 上的得分要高得多。回合數差異近三倍，且更長的路徑並未轉化為更高的準確性。GPT-5.5 (xhigh) 平均每項任務 31 回合，得分 46%，而 Gemini 3.1 Pro Preview 平均 83 回合，得分 30%。

過度探究的模型往往會將上游故障注入機制或同時發生的症狀作為誤報呈現。GLM-5.1 (Reasoning) 以 40% 的得分領先開源模型，與 Gemini 3.5 Flash (high) 實際持平。DeepSeek V4 Pro (Reasoning, Max Effort) 以 38% 緊隨其後，Gemma 4 31B (Reasoning) 為 37%，領先於 Gemini 3.1 Pro Preview 的 30%。

ITBench-AA SRE 概述：

總計 59 項 SRE 任務：40 項公開任務和 19 項全新、保留任務。每項任務都提供一個 Kubernetes 事件快照，其中包含警報、事件、追蹤、指標、日誌和應用程式拓撲。模型必須識別導致事件的最小獨立根本原因 Kubernetes 實體集。故障涵蓋典型的 SRE 故障模式，包括基礎設施、服務、應用程式和混沌注入事件，例如資源配額耗盡、部署失敗、連線池耗盡和網路分區。

方法論細節：

代理式框架：每項任務都由模型在我們的開源 Stirrup 參考框架中執行來解決，該框架具有對包含相關日誌和快照的沙盒檔案系統的 shell 存取權限。每項任務限制 100 回合，每項任務重複 3 次。模型和代理提交一份他們認為導致事件的根本原因實體清單（例如 Kubernetes Deployments、Services、Pods 等）。

每次提交都會與 IBM 提供的真實根本原因集進行比較。評分採用完全召回率下的平均精確度：如果模型錯過任何真實根本原因，該次重複得分為 0.0。如果它識別出所有根本原因，則其得分等於其精確度——即其提交實體中實際是根本原因的比例，亦即真陽性 / (真陽性 + 誤報)。

總體得分是 59 項任務 × 3 次重複的平均值。該框架 (Stirrup) 在所有評估模型中保持不變，以便對模型進行公平比較。

重點摘要

任務要求代理透過 shell 指令調查 Kubernetes 事件快照，並提交結構化的 JSON 診斷，以識別負責的根本原因實體。在一項公開的 SRE 任務中，代理看到前端路徑中面向使用者的故障。它使用 shell 指令檢查離線快照：審查警報顯示事件窗口，然後追蹤/日誌將故障範圍縮小到前端流量。

拓撲確定受影響的服務，而 Kubernetes 清單揭示了一個阻止前端的網路策略。成功的診斷識別出負責的根本原因實體：otel-demo/NetworkPolicy/frontend-block-all-ports。

更多的回合數並不意味著更好的答案。提交超出真實根本原因的額外貢獻實體的模型會受到懲罰：識別出正確的根本原因但添加了上游機制（例如 Chaos Mesh 控制器）或同時發生的症狀，在召回率限制的精確度下被視為誤報。這就是為什麼一些具有長路徑的模型表現不如簡潔的模型：Gemini 3.1 Pro Preview 平均 83 回合，得分 30%，而 Gemma 4 31B (Reasoning) 平均 58 回合，得分 37%。

開源模型處於 ITBench-AA SRE 的成本效益前沿。Gemma 4 31B (Reasoning) 以每項任務 0.14 美元的成本獲得 37% 的分數，在分數和成本上均優於 Gemini 3.1 Pro Preview（每項任務 2.23 美元，30%）。

GLM-5.1 (Reasoning) 以每項任務 1.23 美元的成本獲得 40% 的分數，在分數上與 Gemini 3.5 Flash (high)（1.70 美元）持平，但成本更低。Claude Opus 4.7 (Adaptive Reasoning, Max Effort) 以 47% 的分數領先排行榜，但每項任務成本最高，為 5.38 美元。

ITBench-AA 是與 IBM 合作，基於其 ITBench 基準測試所建立。

欲了解更多資訊，請參閱：ITBench 論文 (arXiv): https://arxiv.org/abs/2502.05352 GitHub: https://github.com/itbench-hub/ITBench ITBench-AA 排行榜: https://artificialanalysis.ai/evaluations/itbench-aa ITBench-AA HuggingFace 儲存庫: https://huggingface.co/datasets/ArtificialAnalysis/ITBench-AA/tree/main/sre