タグ一覧に戻る

ベンチマーク

記事数: 69
複雑チャートでAIモデルが性能半減——RealChart2Code ベンチマークが暴露する視覚認識の限界

複雑チャートでAIモデルが性能半減——RealChart2Code ベンチマークが暴露する視覚認識の限界

RealChart2Code ベンチマークがClaudeやGeminiなど14のAIモデルを試験。複雑な多層チャートではトップモデルでも性能が約50%低下。単純チャートで96%の精度でも実データのグラフ解析では50%に落込む。ビジネス分析ツールとしてのAIの実用性に課題が浮上。

続きを読む

AIエージェントのスキル機能、ベンチマークでは高性能も現実環境では劇的に低下——研究論文

UC Santa BarbaraやMIT CSAILの研究チームが34,000件の実世界スキルを検証。ベンチマーク環境では55%の成功率が、現実的な条件下では35%まで低下することを発表。弱いモデルはスキルがあると逆にパフォーマンス低下。

続きを読む