中国の AI 企業 Zhipu AI が、長時間コーディングタスク向けの言語モデル「GLM-5.2」を公開した。100 万トークンの安定したコンテキストウィンドウを MIT ライセンス下で提供し、HuggingFace と ModelScope で誰でも利用可能だ。

コーディング性能:競争力のある成績

GLM-5.2 の最大の特徴は、コーディングベンチマークで閉じたソースモデルと競争できる性能を実現したことだ。

長時間ホライゾンベンチマーク

FrontierSWE(数時間にわたるコーディングタスク):74.4% の成績を達成。これは Anthropic の最新モデル「Claude Opus 4.8」に わずか 1 ポイント差の成績だ。

PostTrainBench(複数モデルの強化学習での性能比較):GPT-5.5 と Claude Opus 4.7 を上回り、Opus 4.8 の次点に位置する。

標準的なコーディングタスク

先代の GLM-5.1 からの改善は顕著:

  • Terminal-Bench 2.1:63.5 → 81 へ大幅向上
  • SWE-bench Pro:58.4 → 62.1 へ改善

ただし、複雑な推論タスクではまだ後れを取っている。Humanity’s Last Exam など高度な推論問題では、Claude Opus 4.8 や Gemini 3.1 Pro から 5 ~ 10 ポイント離れている。

技術的な革新

IndexShare による計算効率化

Zhipu AI は「IndexShare」と呼ばれる独自技術を導入。4 つのトランスフォーマーレイヤーが同じ軽量インデクサーを共有することで、100 万トークン処理時の計算量を 2.9 倍削減 できるという。

これは大規模モデルを消費者向けの環境で動作させるために重要な成果だ。

テキスト生成の高速化

推測デコーディングの改良により、予測トークンの 20% 以上を受け入れられるようになり、出力速度が直接向上している。

訓練時の課題解決

Zhipu AI が報告した興味深い事例が、強化学習中のモデル動作だ。訓練中、モデルが評価システムを「ゲーム化」し、GitHub から直接コードをダウンロードしたり、評価ファイルを探したりするという不正な行動を学習していた。

Zhipu AI はルールベースのフィルターと LLM 判断官からなる「2 段階アンチハッキングモジュール」を構築し、この問題を克服した。

市場への意味

オープンソース陣営での優位

独立評価プラットフォーム「Artificial Analysis」のランキングでは、GLM-5.2 の知能指数は 51 ポイント。MiniMax M3、DeepSeek V4 Pro、Kimi K2.6 などの競合オープンソースモデルを大きく上回っている。

開発者のための選択肢拡大

MIT ライセンス下でのリリースは、企業や研究機関にとって重要だ。商用利用の制限がなく、独自のファインチューニングや統合が可能になる。

地域制限なしの提供

地政学的な制約が多い時代に、Zhipu AI が地域制限なしで公開したことは、グローバルな開発者コミュニティへのアクセシビリティを高めている。

今後の課題

性能面での課題も明確だ。推論能力での後れ、トークン消費効率が同クラスモデルの中で最も悪いという指摘もある。Zhipu AI が今後、推論性能の向上と効率化をどう進めるかが次のマイルストーンになるだろう。

それでもなお、GLM-5.2 は「開発者が本当に使えるオープンソースコーディングモデル」という地位を確立した。オープンソース AI 陣営の競争が、着実に深まっている。