Alibaba Qwen3.7-Plus が11時間で10,000行コード自動生成——ビジュアルGUI操作から完全なアプリまで

2026年6月6日 18:11

💡

AlibabのQwen3.7-Plusがマルチモーダル自律エージェントとして登場。画面認識、GUI操作、コード生成を統合し、デモで1000回のエージェント呼び出しで英語学習アプリを自動開発。GPT-5.4やOpus 4.6を上回る結果。

Alibaba の AI チーム Qwen が新型マルチモーダルエージェントモデル「Qwen3.7-Plus」をリリースしました。視覚認識、GUI 操作、コード生成を統合した単一エージェントループで、11 時間の自律実行により 10,000 行を超えるコード生成を実現。開発者ワークフローの自動化を具体化する製品が登場しました。

単一エージェントループの三つの能力統合

Qwen3.7-Plus の革新は「マルチモーダル対話型ハイブリッドエージェント」として、以下の能力を一つのループで統合したことです：

ビジュアル認識能力

実世界のシーンの認識
スクリーンショット内容の読み取り
グラフィカルインターフェース（GUI）の自動操作

コード生成能力

ビジュアルテンプレートからのコード自動作成
モバイルアプリ完全ナビゲーション対応

これまでの「テキスト理解」「画像認識」「コード生成」は別々のモデルやステップでしたが、Qwen3.7-Plus は単一のエージェントループで統合しています。

印象的なデモ結果

英語学習アプリの自動開発

最も顕著なデモは 11 時間以上の自律実行 で、システムが 1,000 回以上のエージェント呼び出しを通じて 10,000 行を超えるコード を生成し、完全な英語学習アプリを開発しました。

これは単なる「コード片の生成」ではなく、要件理解→UI 設計→API 統合→テストに至る一連の開発プロセスを自動化したことを示しています。

macOS Stocks アプリの再現

別のデモでは、ネイティブの macOS Stocks アプリを自律的に再現：

SwiftUI コードの自動生成
リアルタイム金融 API の統合
10 個の機能テストの自動実行

クラウド環境での VPS 購入・管理

ブラウザエージェントが自律的に：

クラウドコンソールで最安値の仮想サーバーインスタンスを検索・購入
スケーリングと保守を処理

これは「AI が開発者の代わりに実際のクラウドリソースを管理する」という段階に進んだことを示しています。

ベンチマーク結果——GPT-5.4、Opus 4.6 を上回る

Qwen3.7-Plus は独自ベンチマークで競合を上回っています：

スクリーン理解ベンチマーク

AndroidWorld: Qwen3.7-Plus が最高
ScreenSpot Pro: GPT-5.4、Opus 4.6 Max、Gemini 3.1 Pro を超過

弱点：科学的推論タスク

MedXpertQA-MM などの専門的推論では Gemini 3.1 Pro に劣後

スクリーン操作やビジュアルタスクでは明確にリードしていますが、論文の数式理解や医学推論のような高度な推論には課題があります。

価格設定と利用可能性

競争力のある価格

入力トークン: $0.40/百万
出力トークン: $2.40/百万

比較対象の Qwen3.7-Max と比べて 入力で約 6 倍、出力で約 3 倍の低価格 を実現。最新の大規模モデルの中では最安値圏です。

利用方法

Alibaba Cloud Model Studio を通じて利用可能。中国内外の開発者がアクセス可能な設定となっています。

開発者への影響

自動化の範囲の拡大

これまで「AI がコードを生成する」は補助的なツールでしたが、Qwen3.7-Plus は「完全な開発タスクの自動化」に進みました。11 時間で 10,000 行のコード生成は、単純なスケーラビリティの問題ではなく、要件定義から実装まで一貫してエージェントが自律的に判断し実行している証です。

GUI 操作の自動化が実用段階へ

クラウドコンソール上での VPS 購入など、「実際のビジネスプロセス」の自動化が具体化しました。これにより、DevOps やインフラストラクチャ管理の自動化が実用的なレベルに到達したことが分かります。

Alibaba の戦略

Alibaba は Qwen3.7-Plus をプロプライエタリ（非オープンソース）として展開し、Alibaba Cloud での商用利用を軸としています。これは Google（Gemini）や OpenAI（GPT）と同様の戦略で、エージェント技術で実用的な優位性を確立しようとしています。

エージェント型 AI の競争が「学術的なベンチマーク」から「実務的なタスク自動化」へ移行する転換点として、Qwen3.7-Plus は大きな指標となります。

記事をシェア

参考ソース

★ 注目 THE DECODER

LLM・生成AIの記事

Alibaba が Qwen 3.8 発表、「Fable 5 に次ぐ」マルチモーダル AI モデル

LLM・生成AI

2026年7月19日

Alibaba が Qwen 3.8 発表、「Fable 5 に次ぐ」マルチモーダル AI モデル

Alibaba の Qwen チームが 2.4 兆パラメータのマルチモーダルモデル Qwen 3.8 をリリース。画像・動画・ドキュメント対応で、開発チームは Fable 5 に次ぐ性能を主張。プレビューは Token Plan で利用可能、オープンウェイト版は近日公開予定。

Google Gemini の使用量枠が仕様変更——計算方法が変わり、従来より少ない回答数に

LLM・生成AI

2026年7月18日

Google Gemini の使用量枠が仕様変更——計算方法が変わり、従来より少ない回答数に

Google は Gemini の使用量枠（クォータ）の計算方法を変更。従来の計算ロジックから切り替わり、同じプランでも利用できる回答数が減少する可能性が出現。有料プランユーザーに事前告知なく適用されるため注意が必要。

オープンソースAI 2026：能力格差3.3%、コスト50分の1、Mozillaが示した「使える時代」の全貌

LLM・生成AI

2026年7月18日

オープンソースAI 2026：能力格差3.3%、コスト50分の1、Mozillaが示した「使える時代」の全貌

Mozilla が2026年7月に公開した『State of Open Source AI』レポートが、AI業界に衝撃を与えている。クローズドモデルとの能力格差は3.3%まで縮小し、GPT-4相当の推論コストは3年で50分の1に。中国モデルが週間トラフィックの45%超を占め、ローカルLLMはもはや「使えるツール」となった実態を徹底解説する。

Alibaba が Qwen 3.8 発表、「Fable 5 に次ぐ」マルチモーダル AI モデル

Alibaba Qwen3.7-Max、Claude Opus 4.6 と同等の性能を実現——35時間の自律実行で10倍のスピードアップ

LLM・生成AI

2026年5月25日

Alibaba Qwen3.7-Max、Claude Opus 4.6 と同等の性能を実現——35時間の自律実行で10倍のスピードアップ

Alibaba の Qwen チームが新モデル Qwen3.7-Max をリリース。SWE-verified で Opus 4.6 Max と並ぶ 80.8 スコアを達成し、ハードウェアの最適化に 35 時間をかけて平均 10 倍のスピードアップを実現。Alibaba Cloud Model Studio API で利用可能。

テクノロジー

2026年5月21日