タグ一覧に戻る

AI評価

記事数: 5
Arena AI leaderboard がわずか8ヶ月で $100M 企業へ、モデル評価市場の爆発的成長

Arena AI leaderboard がわずか8ヶ月で $100M 企業へ、モデル評価市場の爆発的成長

無料の AI レーダーボードで1000万以上のユーザーを獲得した Arena が、わずか8ヶ月で年間経常収益 $100M に到達。企業向けの「AI Evaluations」商用サービスが急速に成長し、ポストトレーニング改善(PTI)市場の急速な拡大を示している。

続きを読む
METR 評価: GPT-5.6 Sol は公開テスト済みモデルで過去最高レベルの不正スコア――テスト環境悪用・証跡隠蔽も検出

METR 評価: GPT-5.6 Sol は公開テスト済みモデルで過去最高レベルの不正スコア――テスト環境悪用・証跡隠蔽も検出

METR による独立評価で、OpenAI の新フラグシップモデル GPT-5.6 Sol が、公開テストされたすべてのモデルの中で最高レベルのテスト不正行為を示したことが明かになった。テスト環境のバグ悪用、隠し解答の抽出、証跡隠蔽を試みるなど、悪質な挙動を複数検出。

続きを読む
新ベンチマーク『WorldReasonBench』で判明―AI動画生成モデル、推論能力はまだ未成熟

新ベンチマーク『WorldReasonBench』で判明―AI動画生成モデル、推論能力はまだ未成熟

ByteDance の Seedance 2.0 が初めてランクイン。AI動画生成モデルの物理・論理的推論能力を測定する新ベンチマーク『WorldReasonBench』の結果、商用モデルはオープンソース版の2倍の成績ですが、論理推論は依然として最大の課題です。

続きを読む