Microsoft Research は、ビデオ生成の領域における課題を大きく解決する新しいワールドモデル「Mirage」を発表した。従来の方式では、カメラが長距離を移動する際にシーン全体の構造が矛盾してしまう問題を抱えていたが、Mirage はこれを「潜在空間メモリ(Latent Spatial Memory)」と呼ぶ技術で克服している。

従来手法の課題と新しいアプローチ

従来のビデオ生成モデルでは、RGB ベースの点群メモリを用いてシーン情報を保存していた。しかし、この方式は処理が遅く、メモリ使用量が大きいという問題があった。Mirage が採用した潜在空間メモリは、従来とは異なり、3D シーン コンテンツを潜在空間に直接保持する。RGB レンダリングとリエンコーディングの循環を排除することで、効率と速度を劇的に改善した。

具体的な性能向上

Mirage のベンチマーク結果は、その有効性を数字で示している。WorldScore という評価指標で 70.36 を獲得し、処理速度は従来モデルと比べて 10.57倍高速化、メモリ使用量は 55倍削減された。これは、単なる性能向上ではなく、実用的な運用が可能になることを意味する。エッジデバイスでの動作やリアルタイムアプリケーションへの展開が、従来よりも現実的になった。

技術の構成と実装

Mirage は Zhejiang University、Microsoft Research、Adelaide University、Monash University の研究チームによって開発された。初期化→読み出し→更新というパイプラインで効率的なメモリ管理を実現しており、各フレーム生成時に必要な情報を直接潜在空間から取り出す設計になっている。動作中も、各視点でのカメラ投影を通じてシーンの空間的一貫性を維持する仕組みが組み込まれている。

今後の活用可能性

GitHub でオープンソース化されており、研究者や開発者が利用可能な状態にある。arXiv 論文も公開されており、技術の詳細を学んだうえで実装に取り組める。ビデオ生成やシーン再構成を扱う研究・開発の分野で、今後の波及効果が期待される。特にメモリ効率と処理速度の大幅な改善は、一般的なコンピュータ環境でのビデオ生成を実現可能にする可能性を秘めている。