「Count Anything」——Tsinghua が物体カウント AI モデルをリリース、エラー率を 50% 削減
Tsinghua University が開発した「Count Anything」は、群衆や医療スキャン、衛星画像など様々なイメージで物体をカウントできる初の AI モデル。従来システムと比べエラー率を半減。
Tsinghua University と複数の研究機関が共同開発した「Count Anything」が発表された。このモデルは、一般的な写真から医療スキャン、衛星画像に至るまで、あらゆる種類の画像で物体をカウント(検出・数える)できる初めての AI システムだ。従来システムと比較して、エラー率を 50% 削減。テキストプロンプトのみで動作する。
「数える」ことの難しさ
画像認識の中でも「正確にカウントする」というタスクは、一見シンプルに見えて実は極めて難しい。
大規模な言語モデルや視覚 AI は、画像の説明、図表の読み取り、テキスト抽出などは得意だ。しかし物体の正確なカウントとなると、別問題である。医者が CT スキャンを解析する場合、農家が作物の収量を推定する場合、都市計画家が交通を分析する場合、それぞれ異なる専門知識が必要だった。従来は各用途ごとに専用システムを構築する必要があった。
特に問題となるのは、システムが「得意な環境」と「不得意な環境」が極端に異なることだ。群衆の人数を正確にカウントできるシステムが、顕微鏡下の細胞のカウントは全く駄目、という状況が珍しくない。
技術的アプローチ——2つの戦略を統合
Count Anything は、メタの視覚基盤モデル「SAM3(Segment Anything Model 3)」に基づいている。核心となるのは、2つの相互補完的なアプローチを組み合わせた「ハイブリッド検出」だ。
1 つ目は、明確に見える大きな物体に対応する。このパスはバウンディングボックス(物体を囲む枠)を描画して検出する。
2 つ目は、密集した小さな物体に対応する。細胞や細菌、密集した車両など、数百~数千の小さなターゲットが詰まった画像では、各物体に点を配置して検出する。
両方の予測結果は最後に統合される。重要な工程は「二重カウント」を防ぐロジックだ。両方の検出器が同じ物体をフラグした場合は、信頼度が高い方の予測のみが生き残る。
カスタム構築された「CLOC(Counting Language-based Object Detection)」データセットで訓練されている。
ベンチマークでの性能——限界も明確
テストの結果、Count Anything は多くの競合システムを上回る精度を達成している。従来のシステムと比べて「エラー率 50% 削減」という改善は、医療診断や農業応用などの高精度領域では現実的なインパクトを持つ。
ただし限界も実装から明らかだ。モデルはまだ以下の状況で苦手とする:
- 曖昧な用語で指定された物体(「草」「人」など、定義が恣意的な場合)
- 極度に密集したシーン(数千を超える物体が詰まった環境)
つまり「数え間違えない完全なシステム」ではなく、「従来より大幅に精度が高い実用的なツール」というのが正確な位置づけだ。
応用領域の広がり
将来的な利用場面は多岐にわたる。医療では病理スライドの細胞カウント、放射線科学での異常検出。農業では作物の成長段階の推定、害虫被害の定量化。衛星画像解析では、都市の交通流、災害時の被害範囲、資源調査が可能になる。研究機関では、顕微鏡画像から昆虫の個体数調査まで、様々な学問領域で応用できる。
Count Anything の登場は、「汎用的で精度の高い数え」が可能になった最初のステップを示唆している。課題は、このモデルをどう実装環境に統合し、ドメイン固有の精度要件に応じて調整するか、という次のフェーズへ移る。