Google Deepmind が Gemini Robotics-ER 1.6 をリリースしました。前バージョンから物体指示の精度を向上させ、ロボットの自律計画と知覚能力を大幅に強化しています。

主な改善点

Gemini 3.0 Flash との比較において、以下の領域で性能が向上しました。

  • 物体指示の精度向上 - より複雑な環境でロボットが正確に対象物を認識
  • 数え上げ機能の改善 - 複数アイテムの正確なカウント
  • タスク完了認識の向上 - 指定タスクの終了判定をより正確に判断

計測器読み取り機能

最も注目される新機能は、計測器やゲージの読み取り能力です。Boston Dynamics との協業により開発されました。

圧力計、サイトグラス、デジタルディスプレイなど、様々な計測機器の値を直接読み取る機能は、以下のプロセスで実現されています。

  • アジェンティック画像処理 - 小さな表示部分の正確な検出
  • ポインティング機能 - 針やデジタル表示の位置把握
  • 比率計算 - アナログゲージの値を数値化
  • 世界知識の適用 - 機器の種類に応じた解釈

実世界への適用

Boston Dynamics の Spot ロボットを用いた「システム検査」では、この能力が実際に活用されています。以下のようなユースケースが可能になります。

  • インフラストラクチャの自動監視(圧力、温度、流量の読み取り)
  • 必要に応じた Google Search や視覚言語行動モデルの活用
  • 環境認識と独立したタスク計画の実行

提供方法

Gemini Robotics-ER 1.6 は以下の形式で開発者に提供されます。

  • Gemini API - プログラマティックアクセス
  • Google AI Studio - ノーコードでの実験
  • Colab サンプル - 実装リファレンス

Google Deepmind のロボット AI は、産業用ロボット、自律化システム、インフラ検査といった実務領域での活躍が期待されています。