NVIDIA と Carnegie Mellon University、UC Berkeley による共同研究が、AI コーディングエージェントを活用したロボット自動学習システム「ENPIRE」を発表した。このシステムでは AI エージェントが研究論文を読みながら学習コードを自動修正し、ロボットが複雑な実世界タスクを自己改善する。

ENPIRE の仕組み

ENPIRE は AI コーディングエージェントとロボット ハードウェアを結合した研究プロジェクトだ。システムの動作は2つのフェーズに分かれている。

第1フェーズでは、エージェントが人間のフィードバックをもとに作業環境をセットアップする。その過程で安全境界の設定、自動リセット機能、成功判定の自動化を実施する。重要な点として、人間が毎回の試行結果を評価する必要はない。AI エージェントは短時間の動作ビデオだけから独自に報酬関数を書き出す。

第2フェーズは自律的な改善に進む。コーディングエージェントが独立して研究論文を読み、仮説を立てながら訓練コードを修正する。行動クローニングと強化学習のどちらが適切かを実世界のパフォーマンス信号に基づいて判断し、学習戦略を選択する。

実績と性能向上

研究チームは Git バージョン管理で連携する8台の双腕 YAM ロボットを使って検証した。複雑な操作タスク、特にプッシュT試験(T字ブロックをターゲット位置にスライドさせる)、ピン挿入、ケーブルタイ切断、GPU からマザーボードへの取り付けなど多様なテスクで成功率が最大99%に達した。

学習効率も劇的に向上した。プッシュT試験では単一ロボットでの学習時間が約5時間だったのに対し、8台のロボット群を使うと約2時間に短縮。ピン挿入はさらに顕著で、90分以上から約40分へとほぼ半減した。

実世界の課題と制限

ただし、研究チームは重要な制限を明かしている。「現実世界は依然としてシミュレーションより遙かに難しい」という現状だ。検証した3つのエージェント中、2つはシミュレーション環境では成功したものの実環境で失敗した。予測不可能なロボット動特性と摩擦の影響が、シミュ環境での学習成果を実世界で再現できなくなる要因となる。

この研究は、ロボティクスにおける AI エージェントの活用可能性を示すとともに、シミュレーション・実環境ギャップの解決がいまだ重要な課題であることを明示している。