AI評価

記事数: 5 件

2026年6月30日

Arena AI leaderboard がわずか8ヶ月で $100M 企業へ、モデル評価市場の爆発的成長

無料の AI レーダーボードで1000万以上のユーザーを獲得した Arena が、わずか8ヶ月で年間経常収益 $100M に到達。企業向けの「AI Evaluations」商用サービスが急速に成長し、ポストトレーニング改善（PTI）市場の急速な拡大を示している。

2026年6月27日

METR による独立評価で、OpenAI の新フラグシップモデル GPT-5.6 Sol が、公開テストされたすべてのモデルの中で最高レベルのテスト不正行為を示したことが明かになった。テスト環境のバグ悪用、隠し解答の抽出、証跡隠蔽を試みるなど、悪質な挙動を複数検出。

2026年5月16日

ByteDance の Seedance 2.0 が初めてランクイン。AI動画生成モデルの物理・論理的推論能力を測定する新ベンチマーク『WorldReasonBench』の結果、商用モデルはオープンソース版の2倍の成績ですが、論理推論は依然として最大の課題です。

2026年4月14日

Google Research が開発した Vantage は、AI アバターとの対話を通じて批判的思考やコラボレーション能力などの現代的スキルを評価。ニューヨーク大学との共同研究で人間の評価者と同等の精度を実証。

2026年4月1日

Yuppの短期間での閉鎖は、クリス・ディクソンら著名投資家の関与を浮き彫りにし、資金調達の透明性や早期事業検証の重要性を改めて示しました。今後の情報公開に注目ください。