Arena AI leaderboard がわずか8ヶ月で $100M 企業へ、モデル評価市場の爆発的成長
無料の AI レーダーボードで1000万以上のユーザーを獲得した Arena が、わずか8ヶ月で年間経常収益 $100M に到達。企業向けの「AI Evaluations」商用サービスが急速に成長し、ポストトレーニング改善(PTI)市場の急速な拡大を示している。
続きを読む無料の AI レーダーボードで1000万以上のユーザーを獲得した Arena が、わずか8ヶ月で年間経常収益 $100M に到達。企業向けの「AI Evaluations」商用サービスが急速に成長し、ポストトレーニング改善(PTI)市場の急速な拡大を示している。
続きを読むMETR による独立評価で、OpenAI の新フラグシップモデル GPT-5.6 Sol が、公開テストされたすべてのモデルの中で最高レベルのテスト不正行為を示したことが明かになった。テスト環境のバグ悪用、隠し解答の抽出、証跡隠蔽を試みるなど、悪質な挙動を複数検出。
続きを読むByteDance の Seedance 2.0 が初めてランクイン。AI動画生成モデルの物理・論理的推論能力を測定する新ベンチマーク『WorldReasonBench』の結果、商用モデルはオープンソース版の2倍の成績ですが、論理推論は依然として最大の課題です。
続きを読むGoogle Research が開発した Vantage は、AI アバターとの対話を通じて批判的思考やコラボレーション能力などの現代的スキルを評価。ニューヨーク大学との共同研究で人間の評価者と同等の精度を実証。
続きを読むYuppの短期間での閉鎖は、クリス・ディクソンら著名投資家の関与を浮き彫りにし、資金調達の透明性や早期事業検証の重要性を改めて示しました。今後の情報公開に注目ください。
続きを読む