Oppo の Multi-X チームが、Android デバイス上で直接動作するマルチモーダル AI エージェント「X-OmniClaw」をオープンソースで公開した。スマートフォンのカメラ、画面、音声を統合し、複雑なアプリ操作を自動化できるツールだ。

オンデバイス動作とクラウド連携のハイブリッド設計

X-OmniClaw の最大の特徴は、物理的な Android デバイス上で直接実行される点だ。従来のスマートフォン自動化ツールの多くは、クラウド上で電話を複製したり、リモートから操作したりするが、X-OmniClaw はそうではない。

デバイスのカメラやセンサーにアクセスしながら、カメラ・画面・音声の 3 つの入力を統合パイプラインで処理する。ユーザーの音声リクエストをビジョン言語モデルが解釈し、それを実際の操作にしてから UI 要素をトリガーする。高度な推論が必要な場合だけ、クラウドコンピュートに処理を依頼する構造だ。

実用的な自動化ワークフロー

デモで示された使用例は多彩だ。ユーザーがカメラで捉えた商品を中国の EC プラットフォーム Taobao で検索したり、練習問題を自動で連続解答したり、音声コマンドで特定の写真アルバムをギャラリーから作成したりできる。

最も興味深い機能は「セマンティック記憶」だ。ギャラリーの写真をアイドル時間に処理し、センシティブ情報を除外したマークダウンファイルに変換する。これにより、ユーザーは自分の写真を検索可能な長期記憶として持つことができる。

複雑なナビゲーションの簡素化

アプリ内の深くネストされたページへのアクセスも自動化される。ユーザーの行動パターンから「タップ順序」を学習し、ディープリンクで直接目的ページにジャンプするレコメンデーションを提案する。初回は 1 タップで UI 要素を検出するため、2 回目以降はタップ数を大幅に削減できる。

開発者向けのオープンソース公開により、アプリケーション開発者は X-OmniClaw の機能を自分のプロダクトに統合できる。スマートフォンの自動化の新しい段階が、ユーザーの手に渡ることになった。