Alibaba Qwen3.7-Max、Claude Opus 4.6 と同等の性能を実現——35時間の自律実行で10倍のスピードアップ
Alibaba の Qwen チームが新モデル Qwen3.7-Max をリリース。SWE-verified で Opus 4.6 Max と並ぶ 80.8 スコアを達成し、ハードウェアの最適化に 35 時間をかけて平均 10 倍のスピードアップを実現。Alibaba Cloud Model Studio API で利用可能。
Qwen3.7-Max、新世代の最新モデルをリリース
Alibaba Cloud の Qwen チームは、最新 AI モデル「Qwen3.7-Max」を 2026 年 5 月にリリースしました。これは長時間の自律実行とハードウェア最適化を得意とする設計で、Claude Opus 4.6 や DeepSeek V4 Pro など、競合する西側モデルと肩を並べる性能を示しています。
ベンチマーク成績
Qwen3.7-Max が示した複数のベンチマークスコア:
| ベンチマーク | Qwen3.7-Max | Claude Opus 4.6 Max |
|---|---|---|
| SWE-Verified | 80.4 | 80.8 |
| GPQA Diamond | 92.4 | — |
| HMMT 2026 February | 97.1 | — |
| KernelBench L3 成功率 | 96% | 98% |
OpenAI の GPT-5.5、Google の Gemini 3.0-Pro と比較したモデルの自己評価では、Qwen3.7-Max が高い水準に位置することが示唆されています。先代の Qwen3.6-Plus では達成できなかった精度と処理能力を実現しています。
35時間の自律実行——ハードウェア最適化の実績
Qwen3.7-Max の最大の成果は、自動的にハードウェアの最適化を行った例です。
- タスク内容: Alibaba の T-Head-ZW-M890 アクセラレータ向けに、SGLang 推論ソフトウェアのハードウェアアテンション(hardware attention)カーネルを最適化
- 実行時間: 35時間(連続自律実行)
- 処理: 432 個のカーネルテストと 1,158 回のツール呼び出し
- 成果: 参照実装と比べて 平均 10 倍のスピードアップ
同じタスクを他のモデルで実行した場合との比較:
| モデル | スピードアップ倍率 |
|---|---|
| Qwen3.7-Max | 10.0 倍 |
| GLM 5.1 | 7.3 倍 |
| Kimi K2.6 | 5.0 倍 |
| DeepSeek V4 Pro | 3.3 倍 |
Qwen3.7-Max の前世代である Qwen3.6-Plus は 1.1 倍のスピードアップにとどまっていたため、大幅な性能向上が実現したことになります。
ロボット制御デモ
Alibaba のチームはロボティクス分野での適用も実証しており、Qwen3.7-Max が自身の専用ロボティクス フレームワークとナビゲーション モデルを使って四足歩行ロボットを操作するデモを公開しました。
アクセスと実装インターフェイス
Qwen3.7-Max は以下の方式で利用可能です:
- 提供先: Alibaba Cloud Model Studio API(2026年5月開始)
- 互換性: OpenAI および Anthropic 互換インターフェイスに対応
- 統合ツール: Claude Code、OpenClaw などの開発者ツールと統合可能
西側の LLM プロバイダー(OpenAI、Anthropic)の API 形式に準拠しているため、既存の開発環境での導入がしやすい設計になっています。
まとめ
Qwen3.7-Max は、Claude Opus 4.6 と同水準のベンチマーク結果を達成しながら、長時間の自律実行でハードウェア最適化を行う能力を示しました。中国の AI エコシステムの成熟度が進む中で、このモデルは開発者にとって有力な選択肢となるでしょう。