複雑チャートでAIモデルが性能半減——RealChart2Code ベンチマークが暴露する視覚認識の限界
RealChart2Code ベンチマークがClaudeやGeminiなど14のAIモデルを試験。複雑な多層チャートではトップモデルでも性能が約50%低下。単純チャートで96%の精度でも実データのグラフ解析では50%に落込む。ビジネス分析ツールとしてのAIの実用性に課題が浮上。
続きを読むRealChart2Code ベンチマークがClaudeやGeminiなど14のAIモデルを試験。複雑な多層チャートではトップモデルでも性能が約50%低下。単純チャートで96%の精度でも実データのグラフ解析では50%に落込む。ビジネス分析ツールとしてのAIの実用性に課題が浮上。
続きを読むGoogle Research は、会話型 AI エージェント開発における「現実性の欠落」を定量化する評価フレームワーク ConvApparel を発表。データ駆動型アプローチでシミュレーターの挙動精度を大幅に向上させる。
続きを読む