Alibaba Qwen3.7-Max、Claude Opus 4.6 と同等の性能を実現——35時間の自律実行で10倍のスピードアップ

2026年5月25日 05:04

💡

Alibaba の Qwen チームが新モデル Qwen3.7-Max をリリース。SWE-verified で Opus 4.6 Max と並ぶ 80.8 スコアを達成し、ハードウェアの最適化に 35 時間をかけて平均 10 倍のスピードアップを実現。Alibaba Cloud Model Studio API で利用可能。

Qwen3.7-Max、新世代の最新モデルをリリース

Alibaba Cloud の Qwen チームは、最新 AI モデル「Qwen3.7-Max」を 2026 年 5 月にリリースしました。これは長時間の自律実行とハードウェア最適化を得意とする設計で、Claude Opus 4.6 や DeepSeek V4 Pro など、競合する西側モデルと肩を並べる性能を示しています。

ベンチマーク成績

Qwen3.7-Max が示した複数のベンチマークスコア：

ベンチマーク	Qwen3.7-Max	Claude Opus 4.6 Max
SWE-Verified	80.4	80.8
GPQA Diamond	92.4	—
HMMT 2026 February	97.1	—
KernelBench L3 成功率	96%	98%

OpenAI の GPT-5.5、Google の Gemini 3.0-Pro と比較したモデルの自己評価では、Qwen3.7-Max が高い水準に位置することが示唆されています。先代の Qwen3.6-Plus では達成できなかった精度と処理能力を実現しています。

35時間の自律実行——ハードウェア最適化の実績

Qwen3.7-Max の最大の成果は、自動的にハードウェアの最適化を行った例です。

タスク内容: Alibaba の T-Head-ZW-M890 アクセラレータ向けに、SGLang 推論ソフトウェアのハードウェアアテンション（hardware attention）カーネルを最適化
実行時間: 35時間（連続自律実行）
処理: 432 個のカーネルテストと 1,158 回のツール呼び出し
成果: 参照実装と比べて 平均 10 倍のスピードアップ

同じタスクを他のモデルで実行した場合との比較：

モデル	スピードアップ倍率
Qwen3.7-Max	10.0 倍
GLM 5.1	7.3 倍
Kimi K2.6	5.0 倍
DeepSeek V4 Pro	3.3 倍

Qwen3.7-Max の前世代である Qwen3.6-Plus は 1.1 倍のスピードアップにとどまっていたため、大幅な性能向上が実現したことになります。

ロボット制御デモ

Alibaba のチームはロボティクス分野での適用も実証しており、Qwen3.7-Max が自身の専用ロボティクスフレームワークとナビゲーションモデルを使って四足歩行ロボットを操作するデモを公開しました。

アクセスと実装インターフェイス

Qwen3.7-Max は以下の方式で利用可能です：

提供先: Alibaba Cloud Model Studio API（2026年5月開始）
互換性: OpenAI および Anthropic 互換インターフェイスに対応
統合ツール: Claude Code、OpenClaw などの開発者ツールと統合可能

西側の LLM プロバイダー（OpenAI、Anthropic）の API 形式に準拠しているため、既存の開発環境での導入がしやすい設計になっています。

まとめ

Qwen3.7-Max は、Claude Opus 4.6 と同水準のベンチマーク結果を達成しながら、長時間の自律実行でハードウェア最適化を行う能力を示しました。中国の AI エコシステムの成熟度が進む中で、このモデルは開発者にとって有力な選択肢となるでしょう。

記事をシェア

参考ソース

★ 注目 THE DECODER

LLM・生成AIの記事

GPT-5.6 Sol は Fable 5 より38%安い―― ChatGPT Work で開発ワークフロー激変

LLM・生成AI

2026年7月10日

GPT-5.6 Sol は Fable 5 より38%安い―― ChatGPT Work で開発ワークフロー激変

OpenAIが公開したGPT-5.6 Sol はベンチマークでClaude Fable 5に肩を並べながら、価格は大幅値下げ。同時にChatGPT Work という自動エージェントが登場し、複数アプリ連携で数時間かけて大型プロジェクトを自動化。開発者向けの選択肢が激増する局面に。

OpenAI が SWE-Bench Pro の約30%が「破損」と発表、AI モデル比較の信頼性が揺らぐ

LLM・生成AI

2026年7月10日

OpenAI が SWE-Bench Pro の約30%が「破損」と発表、AI モデル比較の信頼性が揺らぐ

OpenAI が SWE-Bench Pro の調査結果を公表。約30%のタスクに問題があると判明。ベンチマークの信頼性低下により、AI モデル選定の基準が大きく変わる可能性。

Anthropic、Claude に新ダッシュボード「Reflect」を導入使用パターン可視化と「自分ごと化」戦略

LLM・生成AI

2026年7月10日

Anthropic、Claude に新ダッシュボード「Reflect」を導入使用パターン可視化と「自分ごと化」戦略

Anthropic が Claude に「Reflect」ダッシュボード機能を追加。使用パターンの可視化、反省促進、ウェルネス機能を実装。ユーザーの AI 依存度を自覚させ、ワークフロー最適化を促す設計。

Alibaba Qwen3.6-27B、15倍大きな前バージョンを圧倒――パラメータ効率で新基準

Alibaba が27億パラメータの Qwen3.6-27B をリリース。SWE-bench Verified で 77.2 を達成し、15倍の規模を持つ前バージョン Qwen3.5-397B を上回る。密度型アーキテクチャで展開効率と性能の両立を実現。

ベンチマークは AI の実力を過小評価していた——UK AISI、計算予算が進捗測定を歪める仕組みを実証

テクノロジー

2026年7月4日

ベンチマークは AI の実力を過小評価していた——UK AISI、計算予算が進捗測定を歪める仕組みを実証

英国 AI 安全機構（AISI）の研究により、標準的なAIベンチマークが計算予算の制限によって、AIエージェントの実際の能力を系統的に過小評価していることが判明した。計算予算を10倍増やすと、ソフトウェア工学タスクで成功率が25%向上する。

Alibaba Qwen3.7-Plus が11時間で10,000行コード自動生成——ビジュアルGUI操作から完全なアプリまで

LLM・生成AI

2026年6月6日

Alibaba Qwen3.7-Plus が11時間で10,000行コード自動生成——ビジュアルGUI操作から完全なアプリまで

AlibabのQwen3.7-Plusがマルチモーダル自律エージェントとして登場。画面認識、GUI操作、コード生成を統合し、デモで1000回のエージェント呼び出しで英語学習アプリを自動開発。GPT-5.4やOpus 4.6を上回る結果。

GPT-5.6 Sol は Fable 5 より38%安い―― ChatGPT Work で開発ワークフロー激変

OpenAI GPT-5.6 ChatGPT AI エージェントベンチマーク

OpenAIが著作権訴訟で隠蔽疑惑――7,800万件のChatGPT会話データベース

政策・規制

2026年7月10日

OpenAIが著作権訴訟で隠蔽疑惑――7,800万件のChatGPT会話データベース

ニューヨーク・タイムズがOpenAIを相手に、訓練データ検索ツール『Project Giraffe』の存在と7,800万件の会話ログ隠蔽を指摘。AI企業の透明性と法的責任が問われる局面に。

OpenAI 著作権訴訟 ChatGPT データ隠蔽

Meta が API 市場で激烈な価格破壊——$4.25/百万トークンで OpenAI と Anthropic を圧倒

ビジネス

2026年7月10日

Meta が API 市場で激烈な価格破壊——$4.25/百万トークンで OpenAI と Anthropic を圧倒

Meta が Muse Spark 1.1 を API で提供。$1.25 入力/$4.25 出力という格安価格で OpenAI Opus や Anthropic Claude の競争力を奪取。AI 価格戦争が新局面へ。

Meta API LLM 価格戦争 OpenAI

LLM・生成AI

2026年7月10日

OpenAI が SWE-Bench Pro の約30%が「破損」と発表、AI モデル比較の信頼性が揺らぐ

ベンチマーク SWE-Bench Pro AI評価 OpenAI

LLM・生成AI

2026年7月10日

Anthropic、Claude に新ダッシュボード「Reflect」を導入使用パターン可視化と「自分ごと化」戦略

Claude Anthropic UI/UX ユーザー行動

Character.ai がドラマ制作に参入、ユーザーは登場キャラと会話・ロールプレイが可能

エンタメ

2026年7月9日

Character.ai がドラマ制作に参入、ユーザーは登場キャラと会話・ロールプレイが可能

AI チャットプラットフォーム Character.ai が新サービス「マイクロドラマ」を開始。『Last Summer』『The Nighttime Game』『Eden Fall』の3シリーズをリリース。ユーザーは作品を鑑賞するだけでなく、キャラクターに質問したり、ストーリーを分岐させたりできる新体験を提供。

Character.ai AI ドラマエンタメストーリーテリング

すべての記事を見る

Alibaba Qwen3.7-Max、Claude Opus 4.6 と同等の性能を実現——35時間の自律実行で10倍のスピードアップ

Qwen3.7-Max、新世代の最新モデルをリリース

ベンチマーク成績

35時間の自律実行——ハードウェア最適化の実績

ロボット制御デモ

アクセスと実装インターフェイス

まとめ

記事をシェア

タグ

参考ソース

Anthropic、Claude Mythos Preview が月間10,000件以上の脆弱性を検出——「修正追いつかず」の危機的状況を警告

Claude Code、自動探索で AI スケーリング新アルゴリズムを発見——計算量70%削減を実現

Alibaba Qwen3.7-Max、Claude Opus 4.6 と同等の性能を実現——35時間の自律実行で10倍のスピードアップ

Qwen3.7-Max、新世代の最新モデルをリリース

ベンチマーク成績

35時間の自律実行——ハードウェア最適化の実績

ロボット制御デモ

アクセスと実装インターフェイス

まとめ

記事をシェア

タグ

参考ソース

Anthropic、Claude Mythos Preview が月間10,000件以上の脆弱性を検出——「修正追いつかず」の危機的状況を警告

Claude Code、自動探索で AI スケーリング新アルゴリズムを発見——計算量70%削減を実現

LLM・生成AIの記事

関連タグの記事

最新記事