Oppo が Android 向けマルチモーダルエージェント X-OmniClaw をオープンソース化――カメラ・スクリーン・音声をオンデバイスで統合
Oppo の Multi-X チームが AI エージェント「X-OmniClaw」をリリース。Android デバイス上で直接動作し、カメラ・画面・音声を統合してアプリを自動操作。開発者は今すぐ利用可能
Oppo の Multi-X チームが、Android デバイス上で直接動作するマルチモーダル AI エージェント「X-OmniClaw」をオープンソースで公開した。スマートフォンのカメラ、画面、音声を統合し、複雑なアプリ操作を自動化できるツールだ。
オンデバイス動作とクラウド連携のハイブリッド設計
X-OmniClaw の最大の特徴は、物理的な Android デバイス上で直接実行される点だ。従来のスマートフォン自動化ツールの多くは、クラウド上で電話を複製したり、リモートから操作したりするが、X-OmniClaw はそうではない。
デバイスのカメラやセンサーにアクセスしながら、カメラ・画面・音声の 3 つの入力を統合パイプラインで処理する。ユーザーの音声リクエストをビジョン言語モデルが解釈し、それを実際の操作にしてから UI 要素をトリガーする。高度な推論が必要な場合だけ、クラウドコンピュートに処理を依頼する構造だ。
実用的な自動化ワークフロー
デモで示された使用例は多彩だ。ユーザーがカメラで捉えた商品を中国の EC プラットフォーム Taobao で検索したり、練習問題を自動で連続解答したり、音声コマンドで特定の写真アルバムをギャラリーから作成したりできる。
最も興味深い機能は「セマンティック記憶」だ。ギャラリーの写真をアイドル時間に処理し、センシティブ情報を除外したマークダウンファイルに変換する。これにより、ユーザーは自分の写真を検索可能な長期記憶として持つことができる。
複雑なナビゲーションの簡素化
アプリ内の深くネストされたページへのアクセスも自動化される。ユーザーの行動パターンから「タップ順序」を学習し、ディープリンクで直接目的ページにジャンプするレコメンデーションを提案する。初回は 1 タップで UI 要素を検出するため、2 回目以降はタップ数を大幅に削減できる。
開発者向けのオープンソース公開により、アプリケーション開発者は X-OmniClaw の機能を自分のプロダクトに統合できる。スマートフォンの自動化の新しい段階が、ユーザーの手に渡ることになった。