国際研究チームが「世界モデル」の定義を公式化——テキスト生成動画は対象外
国際研究チームがOpenWorldLibを発表。AIの世界モデルに必要な環境認識・相互作用・記憶機能を定義し、Soraなどのテキスト生成動画系モデルは該当しないと結論。
国際研究チームが、AI における「世界モデル」の定義を公式化し、OpenWorldLib と呼ぶオープンソースフレームワークを発表した。この定義により、Soraなどのテキスト生成動画モデルは真の世界モデルに該当しないと結論づけられている。
世界モデルに求められる要素
研究チームは、世界モデルが備えるべき3つの中核要素を定義した。環境を「知覚する」能力、環境と「相互作用する」能力、そして時系列の情報を「記憶する」能力である。これらの要素を備えてこそ、真の世界モデルと呼ぶことができるという。
さらに、世界モデルの機能領域として3つのタスク領域を示した。インタラクティブなビデオ生成、マルチモーダルな推論、視覚-言語-行動の統合能力だ。
テキスト生成動画は「世界モデルではない」
研究チームはSoraなどのテキスト生成動画モデルを意図的に定義から除外した。これらのモデルは、テキストプロンプトから動画を生成できるが、実世界との相互作用ループや環境フィードバックを欠いているとされている。つまり、一方向的な生成能力だけでは、真の世界モデルの条件を満たさないという判断である。
国際研究機関の協力体制
この研究は北京大学、Kuaishou Technology(Kling動画生成器の開発企業)、シンガポール国立大学、清華大学など、複数国の研究機関による国際的な取り組みである。OpenWorldLib は研究コミュニティへのオープンな貢献として位置づけられている。
業界に求められる統一基準
ワールドモデル研究の領域は、現在、定義や評価基準がばらばらな状況にある。企業や研究機関がそれぞれ「世界モデル」を名乗るモデルを発表しているが、実際には大きな差異がある。この公式化された定義とOpenWorldLibは、AI開発者や研究者に対して、共通の指標と評価フレームワークを提供する意義がある。
特に、実世界での相互作用を重視する定義は、ロボティクスやAIエージェント開発にも直結する。単なる生成能力ではなく、環境との対話を通じた学習と適応を重視する研究方向性を示すものであり、今後のAI開発の方針に少なくない影響を与える可能性がある。