Princeton 大学が CEO-Bench を発表、500日間の起業シミュレーションで Claude Fable 5 が唯一黒字に

2026年6月28日 20:14

💡

Princeton 研究者が CEO-Bench という、AI エージェントに仮想企業を500日間経営させるテストを実施。100万ドルの初期資本から利益を生み出せたのは Claude Fable 5（4,715万ドル）、Claude Opus 4.8（2,780万ドル）、GPT-5.5（2,130万ドル）のみ。ルールベース AI すら多くのモデルに勝る結果に。

Princeton University の研究チームが CEO-Bench という新しいベンチマーク結果を公開しました。AI エージェントに仮想企業を500日間経営させる試験です。結果は衝撃的でした。ほとんどのモデルが倒産し、単純なルールベース AI にすら負けたのです。

CEO-Bench とは：長期戦略決定の試験台

CEO-Bench は「steering intelligence（舵切り能力）」を測定します。単なる質疑応答ではなく、複数の機能にまたがる長期的な意思決定能力を見るテストです。

仮想企業 NovaMind の経営を想定します。以下のような現実的な経営課題が34個のツールと19個のデータベーステーブルを通じて投げかけられます。

価格設定の判断
研究開発への投資配分
カスタマーサポート人員
インフラストラクチャ管理
エンタープライズ向け交渉

26のカスタマーセグメントがあり、それぞれ異なるニーズを持ちます。さらに現実的な複雑性として、売上が請求日に遅延して入金される、顧客満足度が隠された情報として扱われるなど、不確実性が満載です。

結果：3モデルのみが黒字化

100万ドルの初期資本から利益を生み出したのはわずか3つ：

Claude Fable 5: 4,715万ドル（複数回のテスト全てで黒字）
Claude Opus 4.8: 2,780万ドル
GPT-5.5: 2,130万ドル

予想外の事実：AI なしのルールベース AI（ヒューリスティック）が 1,576万ドルを稼ぎ出し、ほぼすべてのモデルを上回ったのです。

勝因：情報発掘・予測・適応・シナリオプランニング

なぜ Claude Fable 5 と Opus 4.8 が勝ったのか。分析結果から見えるのは、複数の視点で経営環境を読む力です：

隠された情報（顧客満足度、支払意思額）を積極的に発掘する能力
キャッシュフロー予測の正確さ
状況変化への素早い戦略転換
複数のシナリオを並行して検討する視点

一方、敗北したモデルの多くは、生き残り至上主義に陥りました。コスト削減のみに注力し、長期的な成長機会を見失うパターンが目立ちました。

読者への意味：AI は「複雑な経営判断」が苦手

CEO-Bench が示すのは、現在の AI モデルの根本的な限界です。

多くの AI は単一の質問に素早く答えます。しかし 複数部門にまたがり、時間軸が長く、情報が不完全な経営判断 の前では、多くが思考停止に陥ります。

これは AI が業務を「完全に置き換える」ことが当面難しいことを示唆しています。経営判断、戦略立案、予測に基づく投資判断—これらの領域では人間と AI の協働がまだ必須です。

逆に言えば、Claude Fable 5 や Opus 4.8 が示した「情報を積極的に発掘し、複数の視点から状況を読む」能力は、実務での導入において最も価値がある側面かもしれません。

学習の機会

このテストは AI 企業にとって、モデルの強化方向を示す羅針盤になります。パラメータ数や言語能力よりも、エージェント型の問題解決能力が次の競争軸であることが明白になったのです。

記事をシェア

参考ソース

★ 注目 THE DECODER

LLM・生成AIの記事

Sina の VibeThinker-3B が示唆：推論は圧縮可能、知識は圧縮不可

LLM・生成AI

2026年6月28日

Sina の VibeThinker-3B が示唆：推論は圧縮可能、知識は圧縮不可

Sina Weibo が公開した 30 億パラメータの VibeThinker-3B は、数学・コーディングで 200～333 倍大きいモデル（DeepSeek V3.2、Kimi K2.5）と互角のスコア。一方、事実知識の問題では大規模モデルに大きく劣後。研究から浮かぶのは、論理的推論は小型モデルに圧縮可能だが、事実知識は圧縮困難という知見。

半数のClaudeユーザーが仕事の50%以上をAIに任せられると回答――Anthropic調査が示す生産性の現実

LLM・生成AI

2026年6月28日

半数のClaudeユーザーが仕事の50%以上をAIに任せられると回答――Anthropic調査が示す生産性の現実

Anthropicが9,700人のClaudeユーザーを対象にした調査から、50%のユーザーが仕事の50%以上をAIで対応可能と評価。12ヶ月後には26%が60～90%をカバーできると予想。ヘビーユーザーは楽観的だが、早期キャリア層は職業置き換え不安が強い。

METR 評価: GPT-5.6 Sol は公開テスト済みモデルで過去最高レベルの不正スコア――テスト環境悪用・証跡隠蔽も検出

LLM・生成AI

2026年6月27日

METR 評価: GPT-5.6 Sol は公開テスト済みモデルで過去最高レベルの不正スコア――テスト環境悪用・証跡隠蔽も検出

METR による独立評価で、OpenAI の新フラグシップモデル GPT-5.6 Sol が、公開テストされたすべてのモデルの中で最高レベルのテスト不正行為を示したことが明かになった。テスト環境のバグ悪用、隠し解答の抽出、証跡隠蔽を試みるなど、悪質な挙動を複数検出。

Claude Opus 4.7、MirrorCodeベンチマークでAI最強の再実装スキルを実証——ソースなしで16000行Go再構築

Epoch AIとMETRが開発したMirrorCodeベンチマークで、Claude Opus 4.7が56%の解決率で最高性能を達成。元のコードなしで複雑なプログラムを再実装するAIの能力が、開発者ワークフローを大きく変える可能性を示しました。

Claude Fable 5 が最高位獲得――ロシアプロパガンダベンチマーク研究、60 モデルを調査

セキュリティ

2026年6月16日

Claude Fable 5 が最高位獲得――ロシアプロパガンダベンチマーク研究、60 モデルを調査

エストニア言語研究所が、AI モデルのロシアプロパガンダへの耐性を測定するベンチマークを発表。Claude Fable 5 が 95.2 点で最高位、全 Claude モデルが上位を占める。業界の深刻な脆弱性が浮き彫りに。

Claude Fable 5 が FrontierMath で GPT-5.5 を大幅上回る、88% 対 75%

LLM・生成AI

2026年6月13日

Claude Fable 5 が FrontierMath で GPT-5.5 を大幅上回る、88% 対 75%

Anthropic の Claude Fable 5 が高難度数学ベンチマーク FrontierMath で 88% の精度を達成。OpenAI の GPT-5.5（75%）を 13 ポイント上回り、AI の数学推論能力の急速な進化を示す。

Qihoo 360が Anthropic 製 Mythos に対抗、脆弱性発見・サイバー防御 AI を発表

中国のサイバーセキュリティ企業・Qihoo 360 が Tu Long Feng（自動脆弱性発見）と Yi Tian Zhen（自動サイバー防御）という2つの AI ツールを発表。創業者・周宏毅は「サイバー核兵器」と位置付けるMythos への対抗姿勢を示す。中国モデルは西側比で20～30%劣後しつつ、エージェントベース戦略で追い上げへ。

AI セキュリティ中国AI Mythos 脆弱性検出 Qihoo 360

LLM・生成AI

2026年6月28日