Physical Intelligence が汎用ロボット基盤モデル π0.7 発表、LLM のようなスキル再結合能力を実装
単一モデルで衣類折り畳みからエスプレッソ製造まで対応。言語モデルのように習得したスキルを組み合わせることで、従来の専門化モデルに匹敵するパフォーマンスを実現。
Physical Intelligence は、π0.7と呼ばれるロボット基盤モデルを発表しました。このモデルは、言語モデルのように習得したスキルを新しい方法で組み合わせる「Compositional Generalization」能力を備えており、単一モデルで多様なタスクを実行できます。
π0.7 の特徴
従来のロボット制御は、各タスク専用の特化したモデルが必要でした。π0.7は、これを一つの汎用モデルで実現します。
実績にあるタスク:
- 衣類折り畳み - バイマニュアルUR5eロボットで80%の成功率
- エスプレッソ製造 - 複雑なシーケンス制御
- 箱の組み立て - 精密作業
LLM のようなスキル再結合
π0.7の最大の特徴は、スキルの再結合です。言語モデルがテキスト断片を組み直すように、ロボットは訓練中に学習した動作要素を「再混合」することで、未経験のタスクに対応します。
このプロセスは以下の情報に基づいています。
- 自然言語での小タスク指示
- エピソードメタデータ(実行品質・速度)
- 制御モードラベル
- 中間ステップを示す部分目標画像
この仕組みにより、たとえ低品質な訓練データでも有効活用できるようになり、ロボット訓練のコスト削減につながります。
限界と課題
ただし、Physical Intelligence も「本当の汎化」と「訓練データの検索・再利用」を区別する難しさを認めています。
例えば、エアフライヤータスクでは、訓練データに「フランカロボットアームによるエアフライヤー開閉」という類似動作がわずかに存在していました。言語モデルにおける「データ汚染」議論と同様に、ロボット基盤モデルもこの問題に直面しています。
ロボティクスの将来へ向けて
π0.7は、従来の RL(強化学習)ファインチューン済み専門化モデルの時代から、汎用基盤モデルの時代への転換を示唆しています。
このアプローチにより、以下が可能になります。
- 複数ロボット・複数タスク対応の単一モデル
- 新タスク習得時間の大幅短縮
- 低品質データの有効活用
ロボティクスが「基盤モデル」時代に入ることで、産業用ロボット、協働ロボット、自律システムの導入が加速するでしょう。