Nvidia が Lyra 2.0 を発表、写真から 3D 環境を生成しロボット学習を加速
Nvidia の研究者が 3D 環境生成システム「Lyra 2.0」を発表。1 枚の写真から大規模で一貫性のある 3D シーンを生成し、ロボットの仮想学習に活用できる。これまで実世界の 3D データが必要だったロボット学習が、完全合成環境で実現可能に。
Nvidia の研究者が、画像からリアルな 3D 環境を生成するシステム「Lyra 2.0」を発表した。単一の写真から大規模で高度に一貫性のある 3D シーンを生成し、カメラが移動する仮想空間を物理エンジン上で実現する。生成された 3D 環境は Nvidia Isaac Sim などの物理シミュレーターに直接エクスポートでき、ロボットが完全な合成環境で学習できるようになる。
3D 環境生成の技術的課題を解決
従来の 3D 環境生成モデルには、仮想カメラがある領域を離れて後に戻ってくる際に、以前に生成した 3D 幾何学情報を保持できない課題があった。Lyra 2.0 は各フレームから 3D 幾何学情報を空間メモリに保存し、カメラが同じ領域に戻ったときに以前のデータを取得することで、最大およそ 90 メートルの距離にわたる一貫した 3D シーン生成を実現している。
加えて、学習過程でモデルを意図的にその出力の欠陥に曝露することで、誤りを伝播させるのではなく、品質低下を認識して自動補正する能力を獲得させている。競合する 6 つの手法と比較して、Lyra 2.0 は品質メトリックスで優れた成果を示した。より高速な派生版は従来版の約 13 倍の速度で動作しながら同等の品質を保つ。
ロボット学習のコスト削減と実現
ロボット開発において、学習データとしての実世界の 3D 空間キャプチャは極めてコストが高い。Lyra 2.0 により、低コストで多数のシミュレーション環境を生成でき、ロボットが様々なシーンで仮想学習できるようになる。これは、物理的な実験環境の建設・維持に比べて圧倒的に高速かつ経済的だ。ただし現在のバージョンは静止シーンのみに対応しており、動的環境への展開は今後の課題となっている。