Princeton University の研究チームが CEO-Bench という新しいベンチマーク結果を公開しました。AI エージェントに仮想企業を500日間経営させる試験です。結果は衝撃的でした。ほとんどのモデルが倒産し、単純なルールベース AI にすら負けたのです。

CEO-Bench とは:長期戦略決定の試験台

CEO-Bench は「steering intelligence(舵切り能力)」を測定します。単なる質疑応答ではなく、複数の機能にまたがる長期的な意思決定能力を見るテストです。

仮想企業 NovaMind の経営を想定します。以下のような現実的な経営課題が34個のツールと19個のデータベーステーブルを通じて投げかけられます。

  • 価格設定の判断
  • 研究開発への投資配分
  • カスタマーサポート人員
  • インフラストラクチャ管理
  • エンタープライズ向け交渉

26のカスタマーセグメントがあり、それぞれ異なるニーズを持ちます。さらに現実的な複雑性として、売上が請求日に遅延して入金される、顧客満足度が隠された情報として扱われるなど、不確実性が満載です。

結果:3モデルのみが黒字化

100万ドルの初期資本から利益を生み出したのはわずか3つ:

  • Claude Fable 5: 4,715万ドル(複数回のテスト全てで黒字)
  • Claude Opus 4.8: 2,780万ドル
  • GPT-5.5: 2,130万ドル

予想外の事実:AI なしのルールベース AI(ヒューリスティック)が 1,576万ドルを稼ぎ出し、ほぼすべてのモデルを上回ったのです。

勝因:情報発掘・予測・適応・シナリオプランニング

なぜ Claude Fable 5 と Opus 4.8 が勝ったのか。分析結果から見えるのは、複数の視点で経営環境を読む力です:

  • 隠された情報(顧客満足度、支払意思額)を積極的に発掘する能力
  • キャッシュフロー予測の正確さ
  • 状況変化への素早い戦略転換
  • 複数のシナリオを並行して検討する視点

一方、敗北したモデルの多くは、生き残り至上主義に陥りました。コスト削減のみに注力し、長期的な成長機会を見失うパターンが目立ちました。

読者への意味:AI は「複雑な経営判断」が苦手

CEO-Bench が示すのは、現在の AI モデルの根本的な限界です。

多くの AI は単一の質問に素早く答えます。しかし 複数部門にまたがり、時間軸が長く、情報が不完全な経営判断 の前では、多くが思考停止に陥ります。

これは AI が業務を「完全に置き換える」ことが当面難しいことを示唆しています。経営判断、戦略立案、予測に基づく投資判断—これらの領域では人間と AI の協働がまだ必須です。

逆に言えば、Claude Fable 5 や Opus 4.8 が示した「情報を積極的に発掘し、複数の視点から状況を読む」能力は、実務での導入において最も価値がある側面かもしれません。

学習の機会

このテストは AI 企業にとって、モデルの強化方向を示す羅針盤になります。パラメータ数や言語能力よりも、エージェント型の問題解決能力が次の競争軸であることが明白になったのです。