Alibaba Qwen3.6 が Google Gemma 4 をコーディングベンチマークで圧倒——Mixture-of-Experts で効率化

2026年4月18日 04:11

💡

Alibaba の新型オープンソースモデル Qwen3.6-35B は、わずか 3 つのパラメータのみを活用しながら、Google Gemma 4 を SWE-bench で 73.4% vs 52.0% で上回る。オープンソース LLM の競争が激化。

オープンソース LLM の性能競争が加熱

Alibaba がリリースした新型オープンソースモデル Qwen3.6-35B が、Google の最新モデル Gemma 4 をコーディングベンチマークで大幅に上回ったことが明らかになった。Qwen3.6-35B は SWE-bench Verified で 73.4% に対し、Gemma 4 は 52.0% という大きな差が付いている。

さらに Terminal-Bench 2.0 でも Qwen3.6 は 51.5%、Gemma 4 は 42.9% とリードを維持。オープンソース LLM 市場における Alibaba の地位向上を示唆する結果だ。

Mixture-of-Experts で計算効率を実現

Qwen3.6 の強みは単なる性能だけではない。Mixture-of-Experts アーキテクチャを採用し、35 億個のパラメータのうちわずか 3 つのパラメータのみを各推論時に活用するという革新的な手法を導入している。これにより計算コストを大幅に削減しながら、高い推論品質を維持することに成功した。

推論タスクでは GPQA で 86.0% vs Gemma 4 の 84.3%、AIME26 では 92.7% vs 89.2% という結果となり、算術的推論能力でも優位に立っている。

マルチモーダル性能も視野に

Qwen3.6 は「思考モード」と「非思考モード」の切り替えが可能で、ユーザーのニーズに応じた柔軟な運用が実現できる。画像処理とビデオ処理の性能については「Claude Sonnet 4.5 と同等の水準を維持している」と Alibaba は主張しており、コーディングだけでなく広範な用途での活用を想定している。

Qwen Studio、Alibaba Cloud、Hugging Face、ModelScope など複数プラットフォームでの提供が開始されており、グローバルな開発者に対してアクセス障壁が低い設計となっている。オープンソース LLM 市場における Alibaba の挑戦が、Google や Meta が主導する競争構図に変化をもたらす可能性がある。

記事をシェア

参考ソース

★ 注目 THE DECODER

LLM・生成AIの記事

Claude Mythos がエルデシュ予想を「シンプルな証明」で解く——AI 数学能力の新マイルストーン

LLM・生成AI

2026年5月27日

Claude Mythos がエルデシュ予想を「シンプルな証明」で解く——AI 数学能力の新マイルストーン

Anthropic の Claude Mythos が 1946 年から未解決だったエルデシュの単位距離予想を解く。「かわいい、シンプルな証明」と評価され、AI 駆動型の数学発見に「深刻な余力」が存在することが明らかになった。

LLM・生成AI

2026年5月26日

Y Combinator の Paul Graham が AI 生成メールへの違和感を表明——信頼喪失の心理と研究

Y Combinator 創設者の Paul Graham は、AI で書かれたメールに対して『嘘をつかれているような気がする』と表明。複数の研究が、受け取る側の信頼喪失を実証しています。

Google DeepMind の AlphaProof Nexus、56年間未解のエルデシュ問題を含む9件を自動解法――数学証明の新たなAI利用法を実証

LLM・生成AI

2026年5月25日

Google DeepMind の AlphaProof Nexus、56年間未解のエルデシュ問題を含む9件を自動解法――数学証明の新たなAI利用法を実証

形式化検証言語 Lean を用いた記号的フィードバックループにより、OpenAI の自然言語アプローチとは異なる数学証明戦略を確立。数百ドルの推論コストで業界のベンチマークを拡張。

Alibaba Qwen3.6-27B、15倍大きな前バージョンを圧倒――パラメータ効率で新基準

Alibaba が27億パラメータの Qwen3.6-27B をリリース。SWE-bench Verified で 77.2 を達成し、15倍の規模を持つ前バージョン Qwen3.5-397B を上回る。密度型アーキテクチャで展開効率と性能の両立を実現。

Alibaba Qwen3.7-Max、Claude Opus 4.6 と同等の性能を実現——35時間の自律実行で10倍のスピードアップ

LLM・生成AI

2026年5月25日

Alibaba Qwen3.7-Max、Claude Opus 4.6 と同等の性能を実現——35時間の自律実行で10倍のスピードアップ

Alibaba の Qwen チームが新モデル Qwen3.7-Max をリリース。SWE-verified で Opus 4.6 Max と並ぶ 80.8 スコアを達成し、ハードウェアの最適化に 35 時間をかけて平均 10 倍のスピードアップを実現。Alibaba Cloud Model Studio API で利用可能。