Physical Intelligence は、π0.7と呼ばれるロボット基盤モデルを発表しました。このモデルは、言語モデルのように習得したスキルを新しい方法で組み合わせる「Compositional Generalization」能力を備えており、単一モデルで多様なタスクを実行できます。

π0.7 の特徴

従来のロボット制御は、各タスク専用の特化したモデルが必要でした。π0.7は、これを一つの汎用モデルで実現します。

実績にあるタスク:

  • 衣類折り畳み - バイマニュアルUR5eロボットで80%の成功率
  • エスプレッソ製造 - 複雑なシーケンス制御
  • 箱の組み立て - 精密作業

LLM のようなスキル再結合

π0.7の最大の特徴は、スキルの再結合です。言語モデルがテキスト断片を組み直すように、ロボットは訓練中に学習した動作要素を「再混合」することで、未経験のタスクに対応します。

このプロセスは以下の情報に基づいています。

  • 自然言語での小タスク指示
  • エピソードメタデータ(実行品質・速度)
  • 制御モードラベル
  • 中間ステップを示す部分目標画像

この仕組みにより、たとえ低品質な訓練データでも有効活用できるようになり、ロボット訓練のコスト削減につながります。

限界と課題

ただし、Physical Intelligence も「本当の汎化」と「訓練データの検索・再利用」を区別する難しさを認めています。

例えば、エアフライヤータスクでは、訓練データに「フランカロボットアームによるエアフライヤー開閉」という類似動作がわずかに存在していました。言語モデルにおける「データ汚染」議論と同様に、ロボット基盤モデルもこの問題に直面しています。

ロボティクスの将来へ向けて

π0.7は、従来の RL(強化学習)ファインチューン済み専門化モデルの時代から、汎用基盤モデルの時代への転換を示唆しています。

このアプローチにより、以下が可能になります。

  • 複数ロボット・複数タスク対応の単一モデル
  • 新タスク習得時間の大幅短縮
  • 低品質データの有効活用

ロボティクスが「基盤モデル」時代に入ることで、産業用ロボット、協働ロボット、自律システムの導入が加速するでしょう。