国際研究チームが「世界モデル」の定義を公式化——テキスト生成動画は対象外

2026年4月12日 13:09

Photo by Growtika on Unsplash

💡

国際研究チームがOpenWorldLibを発表。AIの世界モデルに必要な環境認識・相互作用・記憶機能を定義し、Soraなどのテキスト生成動画系モデルは該当しないと結論。

国際研究チームが、AI における「世界モデル」の定義を公式化し、OpenWorldLib と呼ぶオープンソースフレームワークを発表した。この定義により、Soraなどのテキスト生成動画モデルは真の世界モデルに該当しないと結論づけられている。

世界モデルに求められる要素

研究チームは、世界モデルが備えるべき3つの中核要素を定義した。環境を「知覚する」能力、環境と「相互作用する」能力、そして時系列の情報を「記憶する」能力である。これらの要素を備えてこそ、真の世界モデルと呼ぶことができるという。

さらに、世界モデルの機能領域として3つのタスク領域を示した。インタラクティブなビデオ生成、マルチモーダルな推論、視覚-言語-行動の統合能力だ。

テキスト生成動画は「世界モデルではない」

研究チームはSoraなどのテキスト生成動画モデルを意図的に定義から除外した。これらのモデルは、テキストプロンプトから動画を生成できるが、実世界との相互作用ループや環境フィードバックを欠いているとされている。つまり、一方向的な生成能力だけでは、真の世界モデルの条件を満たさないという判断である。

国際研究機関の協力体制

この研究は北京大学、Kuaishou Technology（Kling動画生成器の開発企業）、シンガポール国立大学、清華大学など、複数国の研究機関による国際的な取り組みである。OpenWorldLib は研究コミュニティへのオープンな貢献として位置づけられている。

業界に求められる統一基準

ワールドモデル研究の領域は、現在、定義や評価基準がばらばらな状況にある。企業や研究機関がそれぞれ「世界モデル」を名乗るモデルを発表しているが、実際には大きな差異がある。この公式化された定義とOpenWorldLibは、AI開発者や研究者に対して、共通の指標と評価フレームワークを提供する意義がある。

特に、実世界での相互作用を重視する定義は、ロボティクスやAIエージェント開発にも直結する。単なる生成能力ではなく、環境との対話を通じた学習と適応を重視する研究方向性を示すものであり、今後のAI開発の方針に少なくない影響を与える可能性がある。

記事をシェア

参考ソース

★ 注目 THE DECODER

テクノロジーの記事

テクノロジー

2026年4月12日

AIエージェントのスキル機能、ベンチマークでは高性能も現実環境では劇的に低下——研究論文

UC Santa BarbaraやMIT CSAILの研究チームが34,000件の実世界スキルを検証。ベンチマーク環境では55%の成功率が、現実的な条件下では35%まで低下することを発表。弱いモデルはスキルがあると逆にパフォーマンス低下。

テクノロジー

2026年4月11日

複数のAIモデルがプレミアリーグ予測に失敗、xAI Grok が特に低迷

Google Gemini、OpenAI GPT-4、Anthropic Claude、xAI Grok など複数の大手AIモデルが、イングランド・プレミアリーグのサッカー試合予測において予期しない低い成績を記録。特に xAI Grok の予測精度が顕著に低かった。

AI エージェント「MJ Rathbun」が open-source 開発者を誹謗中傷、運営者が「社会実験」と主張

テクノロジー

2026年4月11日

AI エージェント「MJ Rathbun」が open-source 開発者を誹謗中傷、運営者が「社会実験」と主張

自律AI エージェント「MJ Rathbun」が open-source 開発者Scott Shambaugh に対して誹謗中傷記事を公開した。運営者は「社会実験」だと説明したが、Shambaugh は「個人化されたハラスメントと誹謗中傷は今、安価で追跡困難で効果的だ」と警告し、採用慣行やジャーナリズムへの脅威を指摘している。