GLM-5.1リリース——長時間エージェントタスクで既存モデルを上回る新世代AI
ZhipuAI が GLM-5.1 を MIT ライセンスでオープンソース公開。SWE-Bench Pro で 58.4% を達成し、600 回反復の最適化や 8 時間連続でのデスクトップ構築など、長時間エージェントタスクで突出した能力を示している。
中国・清華大学系の AI スタートアップ ZhipuAI(智谱华章)が 2026 年 4 月 7 日、新世代フラッグシップモデル GLM-5.1 を MIT ライセンスでオープンソース公開した。前身の GLM-5 と同じ 744B パラメータ(MoE で常時アクティブは 40B)を持ちながら、長時間にわたるエージェントタスクでの性能を大幅に向上させている。
GLM-5 との本質的な違い
GLM-5.1 が GLM-5 と一線を画すのは、単純なベンチマークスコアの改善にとどまらない点にある。ZhipuAI は「これまでのモデルはなじみの手法を使い果たした時点で頭打ちになる。時間を与えても改善しない」と述べており、GLM-5.1 はこの課題を解決することを設計目標に置いている。
GLM-5.1 は複雑な問題を自律的に分解し、実験を行い、結果を読み取り、障害を特定して戦略を修正する。数百ラウンド・数千回のツールコールを経ても最適化を続けられる——ZhipuAI はこれを「動かし続けるほど結果が向上する」と表現している。
主要ベンチマーク
SWE-Bench Pro(実際の GitHub Issue を解決するコーディング評価)では 58.4% を達成し、GPT-5.4(57.7%)、Claude Opus 4.6(54.2%)、Gemini 3.1 Pro(53.8%)、GLM-5(55.1%)を上回っている。
その他の主要スコアは以下のとおり:
- NL2Repo(リポジトリ生成): 42.7%(GLM-5 は 35.9%)
- Terminal-Bench 2.0: 63.5%(Terminus-2 フレームワーク)
- AIME 2026: 95.3%
- GPQA-Diamond: 86.2%
- Vending Bench 2(1 年間の仮想自動販売機経営): 5,634.41 ドル(GLM-5 は 4,432.12 ドル、Claude Opus 4.5 は 5,114.87 ドル)
3 つの長時間タスク実証
ZhipuAI は GLM-5.1 の長時間エージェント能力を 3 つのシナリオで実証している。
ベクトルデータベースの 600 回反復最適化: 近傍探索 QPS を 50 ターン制約下での最高記録 3,547 QPS から出発し、600 回以上の反復(6,000 回超のツールコール)を経て 21.5k QPS に到達した。スキャン方式の切り替え、ベクトル圧縮、2 段階パイプラインなど 6 回の構造的転換を自律的に判断している。
KernelBench Level 3(1,000+ ターン): PyTorch 実装を高速 GPU カーネルに最適化するタスクで、GLM-5.1 は 50 問の幾何平均として 3.6 倍のスピードアップを達成。Claude Opus 4.6 の 4.2 倍には届かないものの、GLM-5 よりも大幅に長い時間にわたって改善を続けた。
8 時間でのブラウザ上 Linux デスクトップ構築: スターターコードなし・デザイン仕様なしで、ファイルブラウザ・ターミナル・テキストエディタ・システムモニタ・電卓・ゲームを備えた完全な Linux 風デスクトップ環境をブラウザアプリとして完成させた。一般的なモデルが数ターンで「完了」と宣言する中、GLM-5.1 は 8 時間かけて自己評価と改善を繰り返した。
利用方法
GLM-5.1 の重みは Hugging Face および ModelScope で公開されており、vLLM(v0.19.0+)、SGLang(v0.5.10+)、KTransformers でローカル展開が可能だ。量子化版の GGUF は unsloth/GLM-5.1-GGUF として公開されている。
API 経由での利用は Z.ai API Platform(旧 BigModel.cn)で提供されており、Claude Code や OpenClaw など主要なコーディングエージェントとも互換性がある。
開放戦略と競争環境
GLM シリーズは清華大学の研究室から分離したプロジェクトを源流とし、今回の GLM-5.1 も MIT ライセンスで完全公開されている。SWE-Bench Pro で GPT-5.4 や Claude Opus 4.6 を上回るという結果は、オープンモデルが独自の強みを持てる領域の存在を示している。ただし KernelBench での Claude Opus 4.6(4.2 倍)との差が示すように、すべての指標でトップに立つわけではない。実際の長時間タスクでの比較検証は、今後の研究コミュニティの課題となるだろう。