大型語言模型(LLM)能夠描述圖像、解讀圖表並從照片中提取文字,多模態能力已是現代 AI 系統的標配。然而,一項看似簡單的任務——可靠地計數圖像中的物件——卻出乎意料地困難。

準確的計數結果具有實際影響,無論是醫生判讀掃描影像、農民估計作物產量,還是城市規劃者分析交通狀況。直到現在,這些任務都還需要各自的專門系統來處理。

這正是「Count Anything」模型登場的時機。由清華大學及其他機構研究人員開發的這款全新 AI 模型,旨在跨越不同類型的圖像計數物件,無論是人群中的人頭、衛星照片裡的汽車、醫學掃描中的細胞,還是實驗室裡的細菌菌落。

這是一個常見的問題。一個能可靠計數人群中人頭的系統,往往在顯微鏡下緊密排列的細胞或從高空俯瞰的微小車輛面前束手無策。研究人員希望開發一個單一模型,能接受文字輸入、標記圖像中每個被計數的物件,並處理各種截然不同的圖像類型。

其核心思想是結合兩種互補的方法。其中一種專門處理大型、清晰可見的物件,並在其周圍繪製邊界框;另一種則透過在每個偵測到的目標上放置一個點來處理小型、密集排列的物件。

「Count Anything」結合了基於區域(region-based)和基於像素(pixel-based)的計數器,然後將它們的結果合併成最終的點集。這兩種預測結果最終會被合併。一個簡單的規則可以避免重複計數:當兩個計數器都標記同一個目標時,只保留置信度較高的預測。

該系統建立在 Meta 預訓練模型 SAM3 的基礎上,SAM3 能夠同時處理圖像和文字。Count Anything 在其之上增加了小型適配器(adapter)組件來執行計數任務,而非從頭開始重新訓練整個模型。

為了讓模型能廣泛學習,研究人員首先必須建立一個相應的資料集。現有的公開資料集通常是為單一目的而建,例如腫瘤細胞或衛星圖像。研究人員將它們合併、清理了衝突的標籤,並將結果發布為 CLOC,他們稱這是迄今為止最大的文字引導式計數資料集。

CLOC 資料集涵蓋了六個截然不同的圖像領域,從日常照片和衛星影像到顯微鏡和組織病理學圖像。它包含約 22 萬張圖像、619 個類別和 1500 萬個標記物件,涵蓋六個領域。這些領域包括日常照片、衛星和無人機影像、醫學組織樣本、顯微細胞圖像、小麥穗等農業圖像,以及細菌培養照片。隨著 CLOC 訓練資料的增加,兩種錯誤指標都急劇下降,顯示了大型跨領域計數資料集的價值。

根據論文指出,在團隊自己的比較測試中,「Count Anything」在性能上顯著領先於 CountGD、CLIP-Count 和 Grounding DINO 等競爭系統。平均而言,該模型在圖像中每個查詢類別的計數誤差約為九個物件。而表現最好的競爭模型,其誤差是這個數字的兩倍以上。對於純粹的人群計數,Count Anything 仍具競爭力,但尚未完全超越最頂尖的專門系統。

在直接比較中,「Count Anything」在所有測試查詢中,始終比 CLIP-Count、CountGD++ 和 SAM3 更接近實際的物件數量。研究人員也承認了進一步的限制。當術語模糊或高度專業化時,模型可能會遺漏物件或錯誤分類。在極其密集且嚴重遮擋的場景中,也很難判斷兩個預測是否指向同一個物件。Count Anything 的程式碼已在 GitHub 上公開。

最近的 BabyVision 基準測試顯示,目前的 AI 系統在基本視覺任務上仍面臨挑戰。在對 80 名兒童進行的測試中,大多數前沿模型得分低於三歲兒童的平均水平。即使是頂級模型如 Gemini 3 Pro 也僅達到約 50% 的準確率,而成年人則超過 94%。在計數被遮擋的 3D 方塊時,差距尤其明顯,最好的模型僅達到 20.5%,而人類則能毫無錯誤地解決。