複雑チャートでAIモデルが性能半減——RealChart2Code ベンチマークが暴露する視覚認識の限界
RealChart2Code ベンチマークがClaudeやGeminiなど14のAIモデルを試験。複雑な多層チャートではトップモデルでも性能が約50%低下。単純チャートで96%の精度でも実データのグラフ解析では50%に落込む。ビジネス分析ツールとしてのAIの実用性に課題が浮上。
AIモデルはテキストではほぼ完ぺきに見えても、実務的な視覚タスクでは大きく失速する。新しいベンチマーク「RealChart2Code」がその現実を数字で突きつけています。14の主要AIモデルを試験した結果、複雑なチャートではトップパフォーマーの性能が約50%も低下。「チャートが読める」と「ビジネスで使える」は全く別の問題だということが明確になりました。
単純チャートでは96%、複雑チャートでは50%
テストの構図はシンプルです。AI研究チームが実世界のデータセットから1,036のKaggleソースを精選し、50種類の異なるチャート形式を組み合わせた「複雑可視化」をモデルに見させました。データボリュームは約8億6000万行。これらを「RealChart2Code」と名付けたベンチマークで14のモデルに処理させたわけです。
結果は衝撃的です。Gemini 3 Pro Previewは単純チャート判定「ChartMimic」では96%以上の精度を出しますが、RealChart2Code では約50%に急落。Claude 4.5 Opusも同様に大幅なスコア低下を経験します。開発ラボの理想的な環境とビジネス現場の現実が、この50ポイント落差として現れています。
テスト対象は多層的です。5つのプロプライエタリモデル(Claude 4.5 Opus、Gemini 3 Pro Preview、GPT-5.1ほか)と9つのオープンウェイトモデル(Qwen3-VL-235B、Intern-VL-3.5-241B、DeepSeek-VL-7B)がエントリーしました。結果として、Claude 4.5 Opusが平均スコア8.2で最高をマークし、Gemini 3 Pro Previewが8.1で追従。一方、オープンモデルはすべて3.6未満で、DeepSeek-VL-7Bに至っては9.7%のみのパス率です。
「見える」と「理解できる」の大きな溝
このベンチマークが浮き彫りにするのは、AIの視覚能力の構造的な限界です。単純なチャート(棒グラフ、円グラフ単体)の判定であれば、現在のモデルはパターン認識で対応できます。しかし複合グラフ、複数の軸、非標準的なレイアウト、異質なデータタイプの混在——こうした実務的な複雑さに直面すると、モデルは推論の一貫性を失い始めます。
実ビジネスにおけるデータ分析では、複数部門のKPIを1つのダッシュボードに統合するのが常識です。営業、製造、コンプライアンスのデータが異なるスケール・単位・時系列で表示されます。こうした状況を「簡単な可視化」と見なすAIはほぼ存在しないということです。
ビジネスツール化への課題が浮上
この結果は、AIをビジネス分析やレポート自動化に組み込もうとしている企業に直接的な警告です。「LLMが精密なデータ判読をしてくれるから手作業を減らせる」という期待は、当面の間、複雑なチャート環境では現実的ではないという示唆です。単独のシンプルグラフ解析なら大丈夫ですが、ダッシュボード全体の理解を求めるのは時期尚早。
研究成果はパブリック化され、モデル開発チームがこの課題に取り組む材料が揃いました。次のアップデートで、複合チャート解析がどこまで改善するか。ビジネス現場での実用性が本当に高まるまでには、もう1~2世代のモデル進化が必要かもしれません。