Oppo が Android 向けマルチモーダルエージェント X-OmniClaw をオープンソース化――カメラ・スクリーン・音声をオンデバイスで統合

2026年5月17日 18:10

💡

Oppo の Multi-X チームが AI エージェント「X-OmniClaw」をリリース。Android デバイス上で直接動作し、カメラ・画面・音声を統合してアプリを自動操作。開発者は今すぐ利用可能

Oppo の Multi-X チームが、Android デバイス上で直接動作するマルチモーダル AI エージェント「X-OmniClaw」をオープンソースで公開した。スマートフォンのカメラ、画面、音声を統合し、複雑なアプリ操作を自動化できるツールだ。

オンデバイス動作とクラウド連携のハイブリッド設計

X-OmniClaw の最大の特徴は、物理的な Android デバイス上で直接実行される点だ。従来のスマートフォン自動化ツールの多くは、クラウド上で電話を複製したり、リモートから操作したりするが、X-OmniClaw はそうではない。

デバイスのカメラやセンサーにアクセスしながら、カメラ・画面・音声の 3 つの入力を統合パイプラインで処理する。ユーザーの音声リクエストをビジョン言語モデルが解釈し、それを実際の操作にしてから UI 要素をトリガーする。高度な推論が必要な場合だけ、クラウドコンピュートに処理を依頼する構造だ。

実用的な自動化ワークフロー

デモで示された使用例は多彩だ。ユーザーがカメラで捉えた商品を中国の EC プラットフォーム Taobao で検索したり、練習問題を自動で連続解答したり、音声コマンドで特定の写真アルバムをギャラリーから作成したりできる。

最も興味深い機能は「セマンティック記憶」だ。ギャラリーの写真をアイドル時間に処理し、センシティブ情報を除外したマークダウンファイルに変換する。これにより、ユーザーは自分の写真を検索可能な長期記憶として持つことができる。

複雑なナビゲーションの簡素化

アプリ内の深くネストされたページへのアクセスも自動化される。ユーザーの行動パターンから「タップ順序」を学習し、ディープリンクで直接目的ページにジャンプするレコメンデーションを提案する。初回は 1 タップで UI 要素を検出するため、2 回目以降はタップ数を大幅に削減できる。

開発者向けのオープンソース公開により、アプリケーション開発者は X-OmniClaw の機能を自分のプロダクトに統合できる。スマートフォンの自動化の新しい段階が、ユーザーの手に渡ることになった。

記事をシェア

参考ソース

★ 注目 THE DECODER

テクノロジーの記事

Google AI Studio、Kotlin・Jetpack Compose でネイティブ Android アプリ自動生成

テクノロジー

2026年5月21日

Google AI Studio、Kotlin・Jetpack Compose でネイティブ Android アプリ自動生成

Google AI Studio が Native Android アプリ自動生成機能を追加。Kotlin と Jetpack Compose を使用して本格的なネイティブアプリを一からコード記述することなく生成でき、ブラウザベースのエミュレーターで即座にテストが可能。従来の Google Play Store の位置付けを変える可能性のある機能として注目されている。

Nature に掲載：Google の AI 科学助手が仮説生成から薬剤候補発見まで自動化、計算モデリングを民主化

テクノロジー

2026年5月21日

Nature に掲載：Google の AI 科学助手が仮説生成から薬剤候補発見まで自動化、計算モデリングを民主化

Google DeepMind と Harvard が開発した ERA（Empirical Research Assistance）は、科学ソフトウェア設計・仮説生成・実験設計・データ分析を自動化し Nature で実証。神経科学から感染症予測、医薬品スクリーニングまで専門家レベルの研究成果を数時間～数日で実現。

Google、Genie 世界モデルが Street View と統合——実在地点のシミュレーション環境を生成可能に

テクノロジー

2026年5月21日

Google、Genie 世界モデルが Street View と統合——実在地点のシミュレーション環境を生成可能に

Google DeepMind が Genie 3 と Street View を統合し、地図上のピンから実在地点をベースとしたインタラクティブな AI 世界を生成。ロボティクスと自動運転シミュレーションへの応用が本格化。

LTX-2公開：AI動画生成の新潮流

Lightricksが公開したLTX-2（190億パラメータ）は、テキストから音声と映像を同期生成するオープンソースモデルで、開発や実装の自由度を高めつつSoraやVeoとの競争でAI動画市場に新たな選択肢をもたらします。

テクノロジー

2026年5月21日

Google AI Studio、Kotlin・Jetpack Compose でネイティブ Android アプリ自動生成

X（Twitter）の推奨アルゴリズムが GitHub で公開、Grok ベーストランスフォーマーが全処理を担当

テクノロジー

2026年5月16日

X（Twitter）の推奨アルゴリズムが GitHub で公開、Grok ベーストランスフォーマーが全処理を担当

『For You』フィード駆動の推奨システムコアが Apache 2.0 ライセンスで公開。手作業チューニングを廃止し、トランスフォーマーモデルで全体をランク付け

Google AI Studio、Kotlin・Jetpack Compose でネイティブ Android アプリ自動生成

Google AI Studio Android Kotlin Jetpack Compose

Deepseek、Claude Code 対抗のコーディングエージェント「Deepseek Code」開発を発表

LLM・生成AI

2026年5月21日

Deepseek、Claude Code 対抗のコーディングエージェント「Deepseek Code」開発を発表

中国の AI スタートアップ Deepseek が Beijing に新しいチーム「Harness」を設立し、Claude Code・OpenAI Codex・Cursor に対抗するコーディングエージェント「Deepseek Code」の開発を発表した。Agent Loops・MCP・コンテキストエンジニアリングなど高度なスキルを持つ人材を募集している。

Deepseek Deepseek Code コーディングエージェント Claude Code OpenAI Codex

テクノロジー

2026年5月21日