新ベンチマーク『WorldReasonBench』で判明―AI動画生成モデル、推論能力はまだ未成熟

2026年5月16日 20:11

💡

ByteDance の Seedance 2.0 が初めてランクイン。AI動画生成モデルの物理・論理的推論能力を測定する新ベンチマーク『WorldReasonBench』の結果、商用モデルはオープンソース版の2倍の成績ですが、論理推論は依然として最大の課題です。

AI 動画生成モデルの物理・論理的推論能力を測定する新ベンチマーク「WorldReasonBench」が発表されました。結果は衝撃的です。最新のモデルでさえ、「画面の向こうで何が起きているか」を理解することができていません。

ベンチマークの概要

WorldReasonBench は約400個のテストケースで、以下の項目を評価します：

物理的推論：物体の動き、重力、衝突など現実の物理法則に沿った動きができるか
社会的推論：人間関係や相互作用が自然か
論理的推論：因果関係の理解、矛盾のない続きが作れるか
情報ベース推論：テキストや数字を正確に扱えるか

トップモデルの成績

モデル	スコア	特徴
Seedance 2.0（ByteDance）	39.8	統計的に約90%の試行でトップ
Veo 3.1-Fast（Google）	55.0	世界知識カテゴリーで高成績
Sora 2（OpenAI）	上位	人間中心シーンで優位

ByteDance の Seedance 2.0 が初めて AI 動画生成ベンチマークの頂点に立ちました。

最大の課題：論理推論

分析結果で最も深刻な発見は、すべてのモデルで論理推論能力が大きく劣っていることです。

最高性能のモデルでさえ、論理推論カテゴリーでは全体平均を大きく下回ります。「AがあればB が起きる」という単純な因果関係の継続でさえ、モデルは失敗します。

商用 vs オープンソース

商用モデルはオープンソース版の約2倍の成績を記録しており、「統計的に重複がない」ほどの性能差があります。ただし、オープンソースモデルは詳細なプロンプトでの改善余地が大きいという特徴も見られました。

何を示唆しているか

世界モデル（world model）とは、AI が現実世界のルール・物理法則・因果関係を理解し、未来の状態を予測できる能力を指します。

WorldReasonBench の結果は「ピクセルレベルで見た目には素晴らしい動画が作れても、AI はまだ『世界がどう動くか』を本当には理解していない」ことを明示しています。

人間の子どもは2～3歳で物理的推論を習得しますが、AI はこの基本を今も習得できていません。動画生成の次の段階へ進むには、推論能力の根本的な向上が必須です。

記事をシェア

参考ソース

★ 注目 THE DECODER

LLM・生成AIの記事

OpenAI、Codex for Work で営業・経営・データ分析チーム向けガイドを公開

LLM・生成AI

2026年5月16日

OpenAI、Codex for Work で営業・経営・データ分析チーム向けガイドを公開

OpenAIが新たに『Codex for Work』としてビジネス各職種向けのCodex活用ガイドを公開。営業チームは提案資料の自動作成、経営チームは戦略文書の生成、データ分析チームは分析レポートの作成に活用できるようになり、実務的なワークフローの効率化が可能に。

Richard Socher の自己改善 AI スタートアップが $650M 調達——AI が自分自身を研究・改善するパラダイム実装へ

LLM・生成AI

2026年5月15日

Richard Socher の自己改善 AI スタートアップが $650M 調達——AI が自分自身を研究・改善するパラダイム実装へ

Salesforce 前最高科学責任者 Richard Socher が率いるスタートアップは、AI が自分自身の弱点を発見し、研究を自動化しながら継続的に改善するシステムの実装を目指します。数年ではなく「数四半期」内での製品化を予定。

OpenAI、Codexをモバイル統合──ChatGPTアプリからリモートでコード実行・管理

LLM・生成AI

2026年5月15日

OpenAI、Codexをモバイル統合──ChatGPTアプリからリモートでコード実行・管理

iOS・Android両対応で、スマートフォンからCodexの実行環境をリアルタイム監視。コマンド承認やモデル切り替えがどこからでも可能に。

Sora二段階停止の全貌：2026年に何が変わるか

OpenAIはSoraを二段階で再編し、2026年4月にアプリ、9月にAPIの提供停止を予定しています。影響を最小化するには早めの代替検討と移行準備が効果的です。

ビジネス

2026年3月25日

OpenAI Sora撤退が示すAI商用化の教訓

OpenAIのSora撤退は、Sora2の高度な生成技術にもかかわらずユーザー関心の持続が重要だと示しました。今後はUX改善と市場適合の見極めが成功の鍵です。

ビジネス

2026年3月25日

OpenAI Sora終了の衝撃と今後の選択肢

OpenAIの動画生成アプリSoraに関する終了報道の食い違いを整理し、創作者と開発者が取るべき準備と代替案をわかりやすくお伝えします

OpenAI、セレブ音声クローンの Weights.gg を買収―スタンドアロン製品は未定

OpenAI は音声クローニングスタートアップ Weights.gg を買収。セレブの声を複製するツールを開発してきた同社のチームは、ChatGPT や開発者向け API に音声技術を統合する予定です。

OpenAI M&A 音声AI Weights.gg

月130万ドル、100個の AI エージェント―OpenAI で Peter Steinberger が実験するコスト度外視の開発

テクノロジー

2026年5月16日

月130万ドル、100個の AI エージェント―OpenAI で Peter Steinberger が実験するコスト度外視の開発

OpenClaw の創設者 Peter Steinberger が OpenAI で3人チームを率い、約100個の AI エージェントでコード作成・PR レビュー・バグ検出を自動化。月130万ドルのトークンコストをかけながら『トークンコストが問題でない場合、ソフトウェアはどう変わるか』を探索しています。

AI開発ソフトウェア工学 OpenAI OpenClaw AI エージェント

テクノロジー

2026年5月16日

x.AI、初のコーディングエージェント『Grok Build』をβ提供開始、ターミナルベースで複雑なタスク対応

Elon Musk の x.AI が AI コーディングエージェント『Grok Build』のベータ版を発表。ターミナルベースの CLI ツールで、承認モード・差分表示・並列サブエージェント機能を装備。Claude Code や OpenAI の Codex に後れを取りながらも、既存設定との互換性で差別化を図る。

x.AI Grok コーディングエージェント CLI 開発者ツール

テクノロジー

更新 2026年5月16日

OpenAI、ChatGPT に個人向けファイナンス機能を追加、銀行口座連携に対応

OpenAI が ChatGPT Pro ユーザー向けに新しい個人向けファイナンス機能を発表。Plaid を通じて銀行口座を安全に連携し、支出分析・ポートフォリオ管理・将来の財務計画を AI で実行できる。米国ユーザー向けに本日より利用可能。

OpenAI ChatGPT AI機能ファイナンステック銀行連携

LLM・生成AI

2026年5月16日

OpenAI、Codex for Work で営業・経営・データ分析チーム向けガイドを公開

OpenAI Codex ビジネス自動化効率化

Claude for Small Business 完全ガイド：給与計算からキャンペーン実行まで15業務を自動化する方法

ビジネス

2026年5月16日

Claude for Small Business 完全ガイド：給与計算からキャンペーン実行まで15業務を自動化する方法

Anthropic が中小企業向けに発表した「Claude for Small Business」は、QuickBooks・PayPal・HubSpot・Canva など主要ビジネスツールと Claude を直結し、15のエージェントワークフローで日常業務を自動化する。トグル一つでセットアップ完了、実際の使い方と各ワークフローの詳細を徹底解説する。

Anthropic Claude Claude Cowork 小規模企業業務自動化

すべての記事を見る

新ベンチマーク『WorldReasonBench』で判明―AI動画生成モデル、推論能力はまだ未成熟

ベンチマークの概要

トップモデルの成績

最大の課題：論理推論

商用 vs オープンソース

何を示唆しているか

記事をシェア

タグ

参考ソース

月130万ドル、100個の AI エージェント―OpenAI で Peter Steinberger が実験するコスト度外視の開発

LLM・生成AIの記事

関連タグの記事

最新記事