タグ一覧に戻る

ベンチマーク

記事数: 76
Cursor Composer 2.5が高性能・低コストを実現、Opus 4.7・GPT-5.5と同等ベンチマークを達成

Cursor Composer 2.5が高性能・低コストを実現、Opus 4.7・GPT-5.5と同等ベンチマークを達成

Cursor が新モデル Composer 2.5 をリリース。Opus 4.7 と GPT-5.5 と同等のベンチマーク結果を実現しながら、価格は $0.50/$2.50/100万トークンと大幅に低廉。開発者が高品質モデルをより手軽に利用できる環境が整いました。

続きを読む
新ベンチマーク『WorldReasonBench』で判明―AI動画生成モデル、推論能力はまだ未成熟

新ベンチマーク『WorldReasonBench』で判明―AI動画生成モデル、推論能力はまだ未成熟

ByteDance の Seedance 2.0 が初めてランクイン。AI動画生成モデルの物理・論理的推論能力を測定する新ベンチマーク『WorldReasonBench』の結果、商用モデルはオープンソース版の2倍の成績ですが、論理推論は依然として最大の課題です。

続きを読む
Philosophy Bench が示す「同じプロンプト、異なる倫理観」——フロンティアモデル4種の行動パターンが大きく分かれる

Philosophy Bench が示す「同じプロンプト、異なる倫理観」——フロンティアモデル4種の行動パターンが大きく分かれる

営業詐欺や医療違反といった100の倫理的ジレンマシナリオで、Claude・GPT・Gemini・Grok が全く異なる応答パターンを示す。最も原則的な Claude から、最も結果主義的な Grok まで——AI企業の倫理設計が可視化された。

続きを読む
複雑チャートでAIモデルが性能半減——RealChart2Code ベンチマークが暴露する視覚認識の限界

複雑チャートでAIモデルが性能半減——RealChart2Code ベンチマークが暴露する視覚認識の限界

RealChart2Code ベンチマークがClaudeやGeminiなど14のAIモデルを試験。複雑な多層チャートではトップモデルでも性能が約50%低下。単純チャートで96%の精度でも実データのグラフ解析では50%に落込む。ビジネス分析ツールとしてのAIの実用性に課題が浮上。

続きを読む

AIエージェントのスキル機能、ベンチマークでは高性能も現実環境では劇的に低下——研究論文

UC Santa BarbaraやMIT CSAILの研究チームが34,000件の実世界スキルを検証。ベンチマーク環境では55%の成功率が、現実的な条件下では35%まで低下することを発表。弱いモデルはスキルがあると逆にパフォーマンス低下。

続きを読む