Nvidia の研究者が、画像からリアルな 3D 環境を生成するシステム「Lyra 2.0」を発表した。単一の写真から大規模で高度に一貫性のある 3D シーンを生成し、カメラが移動する仮想空間を物理エンジン上で実現する。生成された 3D 環境は Nvidia Isaac Sim などの物理シミュレーターに直接エクスポートでき、ロボットが完全な合成環境で学習できるようになる。

3D 環境生成の技術的課題を解決

従来の 3D 環境生成モデルには、仮想カメラがある領域を離れて後に戻ってくる際に、以前に生成した 3D 幾何学情報を保持できない課題があった。Lyra 2.0 は各フレームから 3D 幾何学情報を空間メモリに保存し、カメラが同じ領域に戻ったときに以前のデータを取得することで、最大およそ 90 メートルの距離にわたる一貫した 3D シーン生成を実現している。

加えて、学習過程でモデルを意図的にその出力の欠陥に曝露することで、誤りを伝播させるのではなく、品質低下を認識して自動補正する能力を獲得させている。競合する 6 つの手法と比較して、Lyra 2.0 は品質メトリックスで優れた成果を示した。より高速な派生版は従来版の約 13 倍の速度で動作しながら同等の品質を保つ。

ロボット学習のコスト削減と実現

ロボット開発において、学習データとしての実世界の 3D 空間キャプチャは極めてコストが高い。Lyra 2.0 により、低コストで多数のシミュレーション環境を生成でき、ロボットが様々なシーンで仮想学習できるようになる。これは、物理的な実験環境の建設・維持に比べて圧倒的に高速かつ経済的だ。ただし現在のバージョンは静止シーンのみに対応しており、動的環境への展開は今後の課題となっている。