NextAI 海外で話題の最新AIニュース

記事一覧に戻る

Zhipu AI が GLM-5.1 を MIT ライセンスで公開、コード生成で OpenAI・Anthropic を上回る

2026年4月9日 11:11

Zhipu AI が GLM-5.1 を MIT ライセンスで公開、コード生成で OpenAI・Anthropic を上回る

Photo by Daniil Komov on Unsplash

💡

Zhipu AI は4月9日、コード生成に特化した GLM-5.1 をMIT ライセンスで公開。複雑なコーディングタスクで数百回の反復を実行し、自力で戦略を改善。SWE-Bench Pro で 58.4% を達成。

Zhipu AI は4月9日、コード生成モデル「GLM-5.1」を MIT ライセンスで公開した。複雑なコーディングタスクで自律的に戦略を改善し、プログラム合成ベンチマーク SWE-Bench Pro で OpenAI、Anthropic の最新モデルを上回る性能を示している。

反復型の自己最適化機構

GLM-5.1 の特徴は、長時間にわたるコーディングタスクにおいて、モデルが数百回の反復を通じて自力で戦略を改善することにある。通常、生成 AI モデルは一度選んだ方針から逃げられず、行き止まりに陥ると停止してしまう。これに対し GLM-5.1 は実行中に複数回にわたり根本的に方針を切り替え、問題解決に向かう。

ベンチマーク性能

SWE-Bench Pro の評価では、GLM-5.1 は 58.4% の正解率を達成した。これは OpenAI の GPT-5.4（57.7%）、Anthropic の Claude Opus 4.6（57.3%）を上回り、コード生成分野で中国発モデルが最高水準に到達したことを示している。

ベクタデータベース最適化タスクでは 1 秒あたり 21,500 クエリを処理し、従来ベンチマーク比で約6倍の高速化を実現している。

限界と実用的な制約

一方、一般的な推論タスクでの性能は劣っている。Humanity’s Last Exam などの知識評価で GLM-5.1 は 31% に留まり、Google の Gemini 3.1 Pro の 45% に及ばない。Zhipu AI は開発チームとして「最初の一歩」と位置付けており、数百個の工具操作にわたるタスク一貫性の確保や、行き止まり判別精度の向上が課題として残っていることを明言している。

オープンソース・エコシステム対応

GLM-5.1 は Hugging Face、ModelScope で無料公開される。Claude Code、OpenClaw といったコーディングエージェントに統合され、vLLM、SGLang フレームワークでのデプロイメント対応が進められている。開発者が自前インフラで実行・カスタマイズできる環境が整備されたことで、エンタープライズ導入の門戸が広がった。

記事をシェア

タグ

Zhipu AI GLM-5.1 コード生成

参考ソース

★ 注目 THE DECODER

LLM・生成AIの記事

Anthropic が Claude Managed Agents を公開ベータ、自律型 AI エージェント基盤

2026年4月9日

Anthropic が Claude Managed Agents を公開ベータ、自律型 AI エージェント基盤

Anthropic は4月9日、Claude Managed Agents のパブリックベータを発表。インフラ管理が不要な、自律型 AI エージェント向けのマネージド実行プラットフォーム。Notion、Rakuten、Sentry が早期採用。

Meta が新モデル Muse Spark を発表、9ヶ月で AI スタック全面刷新

2026年4月9日

Meta が新モデル Muse Spark を発表、9ヶ月で AI スタック全面刷新

Meta は4月9日、新しい AI モデル「Muse Spark」を発表した。前モデル比で性能・速度を大幅に向上させ、複雑な推論タスク対応が可能。スマートグラス、Facebook、Instagram、WhatsApp、Messenger に統合される。

Meta がフロンティアモデル「Muse Spark」公開、エージェント機能に課題

2026年4月8日

Meta がフロンティアモデル「Muse Spark」公開、エージェント機能に課題

Meta Superintelligence Lab が初の公開モデル「Muse Spark」を発表。強力なベンチマーク結果を示す一方、エージェント機能とコーディングシステムでは競合との性能ギャップを認めている。

関連タグの記事

GLM-5.1リリース——長時間エージェントタスクで既存モデルを上回る新世代AI

2026年4月8日

GLM-5.1リリース——長時間エージェントタスクで既存モデルを上回る新世代AI

ZhipuAI が GLM-5.1 を MIT ライセンスでオープンソース公開。SWE-Bench Pro で 58.4% を達成し、600 回反復の最適化や 8 時間連続でのデスクトップ構築など、長時間エージェントタスクで突出した能力を示している。

OllamaでGemma 4を独自評価——日本語・多言語コード・Claude Code代替の実力と限界

2026年4月8日

OllamaでGemma 4を独自評価——日本語・多言語コード・Claude Code代替の実力と限界

M4 Pro MacでOllama経由のGemma 4（8B Q4_K_M）を実際に動かし、日本語応答・Python／TypeScript／Rust／SQLのコード生成・英日プロンプトの精度差・バグ修正能力を独自評価した。Claude Sonnetとの格差も率直に比較する。

GLM-5V-Turboで変わるフロント開発

2026年4月3日

GLM-5V-Turboで変わるフロント開発

中国のZhipu AIが公開したGLM-5V-Turboは、画像・映像・テキストを扱うマルチモーダルモデルとしてデザインモックをそのままフロントエンドコードに変換する可能性が期待されています。

最新記事

米控訴裁、Anthropic との法的戦いを迅速化（Fast Track）

政策・規制

2026年4月9日

米控訴裁、Anthropic との法的戦いを迅速化（Fast Track）

米控訴裁判所は Anthropic の制裁停止請求を却下した一方で、国防総省との訴訟を迅速処理する決定を下した。法廷での軍事用途 vs AI安全の対立が加速。

Anthropic 法律規制 AI安全米国

米控訴裁判所、Anthropic への国防総省制裁の仮停止を却下

政策・規制

2026年4月9日

米控訴裁判所、Anthropic への国防総省制裁の仮停止を却下

米控訴裁判所が、Anthropic に対する国防総省の「供給チェーン危機」指定を一時的に停止する請求を却下。Anthropic の法的戦いは加速化し、複数の法廷で相反する判断が下されている。

Anthropic 規制法律米国 Claude

OpenAI が Stargate UK 一時中止、エネルギーコストと規制が課題

政策・規制

2026年4月9日

OpenAI が Stargate UK 一時中止、エネルギーコストと規制が課題

OpenAI は英国の AI インフラプロジェクト Stargate UK を一時的に中止。エネルギーコストの高さと規制環境を理由に、好転するまで先延ばしを決定した。

OpenAI インフラ規制英国エネルギー

Anthropic が Claude Managed Agents を公開ベータ、自律型 AI エージェント基盤

2026年4月9日

Anthropic が Claude Managed Agents を公開ベータ、自律型 AI エージェント基盤

Anthropic は4月9日、Claude Managed Agents のパブリックベータを発表。インフラ管理が不要な、自律型 AI エージェント向けのマネージド実行プラットフォーム。Notion、Rakuten、Sentry が早期採用。

Anthropic Claude AI エージェント

Meta が新モデル Muse Spark を発表、9ヶ月で AI スタック全面刷新

2026年4月9日

Meta が新モデル Muse Spark を発表、9ヶ月で AI スタック全面刷新

Meta は4月9日、新しい AI モデル「Muse Spark」を発表した。前モデル比で性能・速度を大幅に向上させ、複雑な推論タスク対応が可能。スマートグラス、Facebook、Instagram、WhatsApp、Messenger に統合される。

Meta Muse Spark AI モデル

OpenAI がエンタープライズ AI の次段階を発表、複数新サービスで企業導入加速

2026年4月8日

OpenAI がエンタープライズ AI の次段階を発表、複数新サービスで企業導入加速

OpenAI がエンタープライズ AI の次段階を発表。Frontier、ChatGPT Enterprise、Codex、企業全体向け AI エージェントなど複数サービスを通じ、企業への AI 導入加速を狙う。

OpenAI エンタープライズ AI ChatGPT AI エージェント

すべての記事を見る