Alibaba の AI チーム Qwen が新型マルチモーダルエージェントモデル「Qwen3.7-Plus」をリリースしました。視覚認識、GUI 操作、コード生成を統合した単一エージェントループで、11 時間の自律実行により 10,000 行を超えるコード生成を実現。開発者ワークフローの自動化を具体化する製品が登場しました。

単一エージェントループの三つの能力統合

Qwen3.7-Plus の革新は「マルチモーダル対話型ハイブリッドエージェント」として、以下の能力を一つのループで統合したことです:

ビジュアル認識能力

  • 実世界のシーンの認識
  • スクリーンショット内容の読み取り
  • グラフィカルインターフェース(GUI)の自動操作

コード生成能力

  • ビジュアルテンプレートからのコード自動作成
  • モバイルアプリ完全ナビゲーション対応

これまでの「テキスト理解」「画像認識」「コード生成」は別々のモデルやステップでしたが、Qwen3.7-Plus は単一のエージェントループで統合しています。

印象的なデモ結果

英語学習アプリの自動開発

最も顕著なデモは 11 時間以上の自律実行 で、システムが 1,000 回以上のエージェント呼び出しを通じて 10,000 行を超えるコード を生成し、完全な英語学習アプリを開発しました。

これは単なる「コード片の生成」ではなく、要件理解→UI 設計→API 統合→テストに至る一連の開発プロセスを自動化したことを示しています。

macOS Stocks アプリの再現

別のデモでは、ネイティブの macOS Stocks アプリを自律的に再現:

  • SwiftUI コードの自動生成
  • リアルタイム金融 API の統合
  • 10 個の機能テストの自動実行

クラウド環境での VPS 購入・管理

ブラウザエージェントが自律的に:

  • クラウドコンソールで最安値の仮想サーバーインスタンスを検索・購入
  • スケーリングと保守を処理

これは「AI が開発者の代わりに実際のクラウドリソースを管理する」という段階に進んだことを示しています。

ベンチマーク結果——GPT-5.4、Opus 4.6 を上回る

Qwen3.7-Plus は独自ベンチマークで競合を上回っています:

スクリーン理解ベンチマーク

  • AndroidWorld: Qwen3.7-Plus が最高
  • ScreenSpot Pro: GPT-5.4、Opus 4.6 Max、Gemini 3.1 Pro を超過

弱点:科学的推論タスク

  • MedXpertQA-MM などの専門的推論では Gemini 3.1 Pro に劣後

スクリーン操作やビジュアルタスクでは明確にリードしていますが、論文の数式理解や医学推論のような高度な推論には課題があります。

価格設定と利用可能性

競争力のある価格

  • 入力トークン: $0.40/百万
  • 出力トークン: $2.40/百万

比較対象の Qwen3.7-Max と比べて 入力で約 6 倍、出力で約 3 倍の低価格 を実現。最新の大規模モデルの中では最安値圏です。

利用方法

Alibaba Cloud Model Studio を通じて利用可能。中国内外の開発者がアクセス可能な設定となっています。


開発者への影響

自動化の範囲の拡大

これまで「AI がコードを生成する」は補助的なツールでしたが、Qwen3.7-Plus は「完全な開発タスクの自動化」に進みました。11 時間で 10,000 行のコード生成は、単純なスケーラビリティの問題ではなく、要件定義から実装まで一貫してエージェントが自律的に判断し実行している証です。

GUI 操作の自動化が実用段階へ

クラウドコンソール上での VPS 購入など、「実際のビジネスプロセス」の自動化が具体化しました。これにより、DevOps やインフラストラクチャ管理の自動化が実用的なレベルに到達したことが分かります。

Alibaba の戦略

Alibaba は Qwen3.7-Plus をプロプライエタリ(非オープンソース)として展開し、Alibaba Cloud での商用利用を軸としています。これは Google(Gemini)や OpenAI(GPT)と同様の戦略で、エージェント技術で実用的な優位性を確立しようとしています。

エージェント型 AI の競争が「学術的なベンチマーク」から「実務的なタスク自動化」へ移行する転換点として、Qwen3.7-Plus は大きな指標となります。