新ベンチマーク『WorldReasonBench』で判明―AI動画生成モデル、推論能力はまだ未成熟
ByteDance の Seedance 2.0 が初めてランクイン。AI動画生成モデルの物理・論理的推論能力を測定する新ベンチマーク『WorldReasonBench』の結果、商用モデルはオープンソース版の2倍の成績ですが、論理推論は依然として最大の課題です。
AI 動画生成モデルの物理・論理的推論能力を測定する新ベンチマーク「WorldReasonBench」が発表されました。結果は衝撃的です。最新のモデルでさえ、「画面の向こうで何が起きているか」を理解することができていません。
ベンチマークの概要
WorldReasonBench は約400個のテストケースで、以下の項目を評価します:
- 物理的推論:物体の動き、重力、衝突など現実の物理法則に沿った動きができるか
- 社会的推論:人間関係や相互作用が自然か
- 論理的推論:因果関係の理解、矛盾のない続きが作れるか
- 情報ベース推論:テキストや数字を正確に扱えるか
トップモデルの成績
| モデル | スコア | 特徴 |
|---|---|---|
| Seedance 2.0(ByteDance) | 39.8 | 統計的に約90%の試行でトップ |
| Veo 3.1-Fast(Google) | 55.0 | 世界知識カテゴリーで高成績 |
| Sora 2(OpenAI) | 上位 | 人間中心シーンで優位 |
ByteDance の Seedance 2.0 が初めて AI 動画生成ベンチマークの頂点に立ちました。
最大の課題:論理推論
分析結果で最も深刻な発見は、すべてのモデルで論理推論能力が大きく劣っていることです。
最高性能のモデルでさえ、論理推論カテゴリーでは全体平均を大きく下回ります。「AがあればB が起きる」という単純な因果関係の継続でさえ、モデルは失敗します。
商用 vs オープンソース
商用モデルはオープンソース版の約2倍の成績を記録しており、「統計的に重複がない」ほどの性能差があります。ただし、オープンソースモデルは詳細なプロンプトでの改善余地が大きいという特徴も見られました。
何を示唆しているか
世界モデル(world model)とは、AI が現実世界のルール・物理法則・因果関係を理解し、未来の状態を予測できる能力を指します。
WorldReasonBench の結果は「ピクセルレベルで見た目には素晴らしい動画が作れても、AI はまだ『世界がどう動くか』を本当には理解していない」ことを明示しています。
人間の子どもは2~3歳で物理的推論を習得しますが、AI はこの基本を今も習得できていません。動画生成の次の段階へ進むには、推論能力の根本的な向上が必須です。