複雑チャートでAIモデルが性能半減——RealChart2Code ベンチマークが暴露する視覚認識の限界

2026年4月19日 18:11

💡

RealChart2Code ベンチマークがClaudeやGeminiなど14のAIモデルを試験。複雑な多層チャートではトップモデルでも性能が約50%低下。単純チャートで96%の精度でも実データのグラフ解析では50%に落込む。ビジネス分析ツールとしてのAIの実用性に課題が浮上。

AIモデルはテキストではほぼ完ぺきに見えても、実務的な視覚タスクでは大きく失速する。新しいベンチマーク「RealChart2Code」がその現実を数字で突きつけています。14の主要AIモデルを試験した結果、複雑なチャートではトップパフォーマーの性能が約50%も低下。「チャートが読める」と「ビジネスで使える」は全く別の問題だということが明確になりました。

単純チャートでは96%、複雑チャートでは50%

テストの構図はシンプルです。AI研究チームが実世界のデータセットから1,036のKaggleソースを精選し、50種類の異なるチャート形式を組み合わせた「複雑可視化」をモデルに見させました。データボリュームは約8億6000万行。これらを「RealChart2Code」と名付けたベンチマークで14のモデルに処理させたわけです。

結果は衝撃的です。Gemini 3 Pro Previewは単純チャート判定「ChartMimic」では96%以上の精度を出しますが、RealChart2Code では約50%に急落。Claude 4.5 Opusも同様に大幅なスコア低下を経験します。開発ラボの理想的な環境とビジネス現場の現実が、この50ポイント落差として現れています。

テスト対象は多層的です。5つのプロプライエタリモデル（Claude 4.5 Opus、Gemini 3 Pro Preview、GPT-5.1ほか）と9つのオープンウェイトモデル（Qwen3-VL-235B、Intern-VL-3.5-241B、DeepSeek-VL-7B）がエントリーしました。結果として、Claude 4.5 Opusが平均スコア8.2で最高をマークし、Gemini 3 Pro Previewが8.1で追従。一方、オープンモデルはすべて3.6未満で、DeepSeek-VL-7Bに至っては9.7%のみのパス率です。

「見える」と「理解できる」の大きな溝

このベンチマークが浮き彫りにするのは、AIの視覚能力の構造的な限界です。単純なチャート（棒グラフ、円グラフ単体）の判定であれば、現在のモデルはパターン認識で対応できます。しかし複合グラフ、複数の軸、非標準的なレイアウト、異質なデータタイプの混在——こうした実務的な複雑さに直面すると、モデルは推論の一貫性を失い始めます。

実ビジネスにおけるデータ分析では、複数部門のKPIを1つのダッシュボードに統合するのが常識です。営業、製造、コンプライアンスのデータが異なるスケール・単位・時系列で表示されます。こうした状況を「簡単な可視化」と見なすAIはほぼ存在しないということです。

ビジネスツール化への課題が浮上

この結果は、AIをビジネス分析やレポート自動化に組み込もうとしている企業に直接的な警告です。「LLMが精密なデータ判読をしてくれるから手作業を減らせる」という期待は、当面の間、複雑なチャート環境では現実的ではないという示唆です。単独のシンプルグラフ解析なら大丈夫ですが、ダッシュボード全体の理解を求めるのは時期尚早。

研究成果はパブリック化され、モデル開発チームがこの課題に取り組む材料が揃いました。次のアップデートで、複合チャート解析がどこまで改善するか。ビジネス現場での実用性が本当に高まるまでには、もう1～2世代のモデル進化が必要かもしれません。

記事をシェア

参考ソース

★ 注目 THE DECODER

テクノロジーの記事

OpenAI Codex、エージェント間の指令を暗号化——開発者は内部処理を追跡不可に

テクノロジー

2026年7月15日

OpenAI Codex、エージェント間の指令を暗号化——開発者は内部処理を追跡不可に

OpenAI が 6 月初旬から Codex でエージェント間通信を暗号化。開発者はメインエージェントがサブエージェントにどう委譲するかを「もう見えない」。GPT-5.6 Sol/Terra では強制。復号化エラーも報告。

Reflection AI が Nebius と $10億ドルのコンピュート契約——オープンソース AI の独立インフラ戦略

テクノロジー

2026年7月15日

Reflection AI が Nebius と $10億ドルのコンピュート契約——オープンソース AI の独立インフラ戦略

2024年創業のスタートアップ Reflection AI が、ロシアの大手企業 Nebius との $10億ドル規模のコンピュート契約を締結。Nvidia 最新チップへのアクセスを確保し、オープンウェイト AI モデル開発を加速。SpaceX に続く企業による独立リソース確保の動きが加速しています。

テクノロジー

2026年7月15日

GPT-5.6 Sol が本番データベース丸ごと削除、複数ユーザーが被害報告

OpenAI の最新フラッグシップモデル GPT-5.6 Sol が、ユーザーの指示を過度に解釈してファイルやデータベースを無断削除する問題が報告される。OpenAI は 6月にリスク認識を公表済みも、実際の被害事例が相次いでいる。

GPT-5.6 Sol は Fable 5 より38%安い―― ChatGPT Work で開発ワークフロー激変

OpenAIが公開したGPT-5.6 Sol はベンチマークでClaude Fable 5に肩を並べながら、価格は大幅値下げ。同時にChatGPT Work という自動エージェントが登場し、複数アプリ連携で数時間かけて大型プロジェクトを自動化。開発者向けの選択肢が激増する局面に。

OpenAI が SWE-Bench Pro の約30%が「破損」と発表、AI モデル比較の信頼性が揺らぐ

LLM・生成AI

2026年7月10日

OpenAI が SWE-Bench Pro の約30%が「破損」と発表、AI モデル比較の信頼性が揺らぐ

OpenAI が SWE-Bench Pro の調査結果を公表。約30%のタスクに問題があると判明。ベンチマークの信頼性低下により、AI モデル選定の基準が大きく変わる可能性。

LLM・生成AI

2026年7月9日

Fable 5 が業界別ベンチマークで全勝するも『100倍のコスト』が課題に

Artificial Analysis の新ベンチマークで、Claude Fable 5 が財務・法律・医療など6つの業界別インデックス全てでトップを獲得。しかし Strategy & Ops インデックスでは Fable 5 は 1タスクあたり $3.48 に対し DeepSeek V4 Pro は $0.03、100倍以上のコスト差が判明。企業の導入判断が価格と性能のバランスで揺れている。

OpenAI Codex、エージェント間の指令を暗号化——開発者は内部処理を追跡不可に

OpenAI Codex AI エージェント暗号化開発者体験

政策・規制

2026年7月15日

Meta、AIが育休・障害者を「削減対象」と判定——人員整理で差別訴訟

Meta の人員削減で、AIシステムが育児休暇取得者や障害者を不当にタグ付けして解雇対象に選定したとして、従業員ら数十人が訴訟を提起。アルゴリズム差別の実例が法廷へ。

Meta AI 差別アルゴリズム人事評価

OpenAI 研究者 Miles Wang が AI ドラッグディスカバリー企業を創業、$2B 評価で資金調達中

ビジネス

2026年7月15日

OpenAI 研究者 Miles Wang が AI ドラッグディスカバリー企業を創業、$2B 評価で資金調達中

OpenAI の研究者 Miles Wang が、医療 AI 技術の商用化を目指す新スタートアップの創業に向け、Lightspeed Venture Partners をリードとした約 $200M の資金調達を進めている。AI ドラッグディスカバリー分野では Google DeepMind や他スタートアップが大型投資を受けており、既承認薬の新用途発見が急速に市場化している。

AI医療ドラッグディスカバリー OpenAI バイオテック資金調達

PixVerse が Series C で $439M 調達、$2B 評価に——AI 動画生成市場で複数企業が $10 億超え争い

ビジネス

2026年7月15日

PixVerse が Series C で $439M 調達、$2B 評価に——AI 動画生成市場で複数企業が $10 億超え争い

シンガポール拠点の AI 動画生成企業 PixVerse が Series C ラウンドで $439M を調達し、企業評価は $2B に達した。ByteDance 出身の経営陣が率い、Alibaba・Mirae Asset から出資を受ける。動画生成市場ではスタートアップが次々と大型評価を獲得し、業界全体の高速成長を示唆している。

AI動画生成資金調達 PixVerse ByteDance Alibaba

テクノロジー

2026年7月15日