Google Deepmind Gemini Robotics-ER 1.6、ロボット計画・知覚を高度化 計測器読み取り能力を追加
計測器やシステムを正確に読み取る能力が加わり、ロボットの自律操作がさらに進化。Boston Dynamics との協業で実装。
Google Deepmind が Gemini Robotics-ER 1.6 をリリースしました。前バージョンから物体指示の精度を向上させ、ロボットの自律計画と知覚能力を大幅に強化しています。
主な改善点
Gemini 3.0 Flash との比較において、以下の領域で性能が向上しました。
- 物体指示の精度向上 - より複雑な環境でロボットが正確に対象物を認識
- 数え上げ機能の改善 - 複数アイテムの正確なカウント
- タスク完了認識の向上 - 指定タスクの終了判定をより正確に判断
計測器読み取り機能
最も注目される新機能は、計測器やゲージの読み取り能力です。Boston Dynamics との協業により開発されました。
圧力計、サイトグラス、デジタルディスプレイなど、様々な計測機器の値を直接読み取る機能は、以下のプロセスで実現されています。
- アジェンティック画像処理 - 小さな表示部分の正確な検出
- ポインティング機能 - 針やデジタル表示の位置把握
- 比率計算 - アナログゲージの値を数値化
- 世界知識の適用 - 機器の種類に応じた解釈
実世界への適用
Boston Dynamics の Spot ロボットを用いた「システム検査」では、この能力が実際に活用されています。以下のようなユースケースが可能になります。
- インフラストラクチャの自動監視(圧力、温度、流量の読み取り)
- 必要に応じた Google Search や視覚言語行動モデルの活用
- 環境認識と独立したタスク計画の実行
提供方法
Gemini Robotics-ER 1.6 は以下の形式で開発者に提供されます。
- Gemini API - プログラマティックアクセス
- Google AI Studio - ノーコードでの実験
- Colab サンプル - 実装リファレンス
Google Deepmind のロボット AI は、産業用ロボット、自律化システム、インフラ検査といった実務領域での活躍が期待されています。