タグ一覧に戻る

ベンチマーク

記事数: 87
ベンチマークは AI の実力を過小評価していた——UK AISI、計算予算が進捗測定を歪める仕組みを実証

ベンチマークは AI の実力を過小評価していた——UK AISI、計算予算が進捗測定を歪める仕組みを実証

英国 AI 安全機構(AISI)の研究により、標準的なAIベンチマークが計算予算の制限によって、AIエージェントの実際の能力を系統的に過小評価していることが判明した。計算予算を10倍増やすと、ソフトウェア工学タスクで成功率が25%向上する。

続きを読む
Arena AI leaderboard がわずか8ヶ月で $100M 企業へ、モデル評価市場の爆発的成長

Arena AI leaderboard がわずか8ヶ月で $100M 企業へ、モデル評価市場の爆発的成長

無料の AI レーダーボードで1000万以上のユーザーを獲得した Arena が、わずか8ヶ月で年間経常収益 $100M に到達。企業向けの「AI Evaluations」商用サービスが急速に成長し、ポストトレーニング改善(PTI)市場の急速な拡大を示している。

続きを読む
Princeton 大学が CEO-Bench を発表、500日間の起業シミュレーションで Claude Fable 5 が唯一黒字に

Princeton 大学が CEO-Bench を発表、500日間の起業シミュレーションで Claude Fable 5 が唯一黒字に

Princeton 研究者が CEO-Bench という、AI エージェントに仮想企業を500日間経営させるテストを実施。100万ドルの初期資本から利益を生み出せたのは Claude Fable 5(4,715万ドル)、Claude Opus 4.8(2,780万ドル)、GPT-5.5(2,130万ドル)のみ。ルールベース AI すら多くのモデルに勝る結果に。

続きを読む
Sina の VibeThinker-3B が示唆:推論は圧縮可能、知識は圧縮不可

Sina の VibeThinker-3B が示唆:推論は圧縮可能、知識は圧縮不可

Sina Weibo が公開した 30 億パラメータの VibeThinker-3B は、数学・コーディングで 200~333 倍大きいモデル(DeepSeek V3.2、Kimi K2.5)と互角のスコア。一方、事実知識の問題では大規模モデルに大きく劣後。研究から浮かぶのは、論理的推論は小型モデルに圧縮可能だが、事実知識は圧縮困難という知見。

続きを読む
Claude Opus 4.7、MirrorCodeベンチマークでAI最強の再実装スキルを実証——ソースなしで16000行Go再構築

Claude Opus 4.7、MirrorCodeベンチマークでAI最強の再実装スキルを実証——ソースなしで16000行Go再構築

Epoch AIとMETRが開発したMirrorCodeベンチマークで、Claude Opus 4.7が56%の解決率で最高性能を達成。元のコードなしで複雑なプログラムを再実装するAIの能力が、開発者ワークフローを大きく変える可能性を示しました。

続きを読む
Claude Fable 5 が最高位獲得――ロシアプロパガンダベンチマーク研究、60 モデルを調査

Claude Fable 5 が最高位獲得――ロシアプロパガンダベンチマーク研究、60 モデルを調査

エストニア言語研究所が、AI モデルのロシアプロパガンダへの耐性を測定するベンチマークを発表。Claude Fable 5 が 95.2 点で最高位、全 Claude モデルが上位を占める。業界の深刻な脆弱性が浮き彫りに。

続きを読む
Alibaba Qwen3.7-Max、Claude Opus 4.6 と同等の性能を実現——35時間の自律実行で10倍のスピードアップ

Alibaba Qwen3.7-Max、Claude Opus 4.6 と同等の性能を実現——35時間の自律実行で10倍のスピードアップ

Alibaba の Qwen チームが新モデル Qwen3.7-Max をリリース。SWE-verified で Opus 4.6 Max と並ぶ 80.8 スコアを達成し、ハードウェアの最適化に 35 時間をかけて平均 10 倍のスピードアップを実現。Alibaba Cloud Model Studio API で利用可能。

続きを読む
Cursor Composer 2.5が高性能・低コストを実現、Opus 4.7・GPT-5.5と同等ベンチマークを達成

Cursor Composer 2.5が高性能・低コストを実現、Opus 4.7・GPT-5.5と同等ベンチマークを達成

Cursor が新モデル Composer 2.5 をリリース。Opus 4.7 と GPT-5.5 と同等のベンチマーク結果を実現しながら、価格は $0.50/$2.50/100万トークンと大幅に低廉。開発者が高品質モデルをより手軽に利用できる環境が整いました。

続きを読む
新ベンチマーク『WorldReasonBench』で判明―AI動画生成モデル、推論能力はまだ未成熟

新ベンチマーク『WorldReasonBench』で判明―AI動画生成モデル、推論能力はまだ未成熟

ByteDance の Seedance 2.0 が初めてランクイン。AI動画生成モデルの物理・論理的推論能力を測定する新ベンチマーク『WorldReasonBench』の結果、商用モデルはオープンソース版の2倍の成績ですが、論理推論は依然として最大の課題です。

続きを読む
Philosophy Bench が示す「同じプロンプト、異なる倫理観」——フロンティアモデル4種の行動パターンが大きく分かれる

Philosophy Bench が示す「同じプロンプト、異なる倫理観」——フロンティアモデル4種の行動パターンが大きく分かれる

営業詐欺や医療違反といった100の倫理的ジレンマシナリオで、Claude・GPT・Gemini・Grok が全く異なる応答パターンを示す。最も原則的な Claude から、最も結果主義的な Grok まで——AI企業の倫理設計が可視化された。

続きを読む
複雑チャートでAIモデルが性能半減——RealChart2Code ベンチマークが暴露する視覚認識の限界

複雑チャートでAIモデルが性能半減——RealChart2Code ベンチマークが暴露する視覚認識の限界

RealChart2Code ベンチマークがClaudeやGeminiなど14のAIモデルを試験。複雑な多層チャートではトップモデルでも性能が約50%低下。単純チャートで96%の精度でも実データのグラフ解析では50%に落込む。ビジネス分析ツールとしてのAIの実用性に課題が浮上。

続きを読む

AIエージェントのスキル機能、ベンチマークでは高性能も現実環境では劇的に低下——研究論文

UC Santa BarbaraやMIT CSAILの研究チームが34,000件の実世界スキルを検証。ベンチマーク環境では55%の成功率が、現実的な条件下では35%まで低下することを発表。弱いモデルはスキルがあると逆にパフォーマンス低下。

続きを読む