Claude Opus 4.7、MirrorCodeベンチマークでAI最強の再実装スキルを実証——ソースなしで16000行Go再構築

2026年6月27日 14:30

💡

Epoch AIとMETRが開発したMirrorCodeベンチマークで、Claude Opus 4.7が56%の解決率で最高性能を達成。元のコードなしで複雑なプログラムを再実装するAIの能力が、開発者ワークフローを大きく変える可能性を示しました。

何が起きたのか

Epoch AIとMETRが開発したMirrorCodeというベンチマークテストで、Anthropicの最新モデル Claude Opus 4.7 が驚異的な性能を示しました。このテストは、AI が元のソースコードを見ずに、完全なプログラムを再実装できるかどうかを測定するものです。

結果は明確でした。Claude Opus 4.7 は全25個のプログラムのうち56%を正しく再実装。2位の GPT-5.5（44%）と 3 位の Gemini 3.1 Pro Preview（32%）を大きく引き離しました。

最も印象的な成果

最も注目を集めたのは、16000行のGoコードで書かれたバイオインフォマティクスツール「gotree」の再実装です。Claude Opus 4.7 はわずか14時間でこれを完成させました。人間のエンジニアなら2週間から17週間かかる作業です。

MirrorCode が測定する25のプログラムは、Unix ユーティリティ、データシリアライゼーション、バイオインフォマティクス、インタプリタ、静的解析、暗号化、圧縮など、実務的で多様な領域をカバーしています。これは、単なる学術的なベンチマークではなく、実際の開発シーンで求められるスキルを測っているということです。

AIコーディング能力の進化を示す数字

ベンチマーク結果が明らかにしたのは、AIコーディング能力の急速な進化です。わずか1年前、主流のモデルはこのテストで約30%程度の成績でした。それが56%まで伸びたという進捗は、開発者の仕事をどう変えるかを予測する手がかりになります。

ただし課題も見えます。小規模プログラムはすべてのモデルで確実に再実装されますが、最も複雑なタスクはすべてのモデルで失敗しています。つまり、AIは一定の複雑さを超えると、まだ人間の判断が必要だということです。

なぜこれが重要か

MirrorCode が測定しているのは、単なる「コード生成」ではありません。既存コードの構造・設計・意図を理解したうえで、それを別の形で再現する能力です。これは、レガシーシステムの現代化、複雑な機能の移植、あるいは新しい言語への翻訳など、開発現場で頻繁に発生する実務的なタスクそのものです。

Claude Opus 4.7 がこのテストで圧倒的に強いという事実は、コード品質が重視される現場では、AI は単なる補助ツールから、主要な開発パートナーへと昇格していることを示唆しています。

読者への一言

もし、あなたがプログラマーなら、このベンチマーク結果は無視できません。AI が複雑なコードを理解し再実装する能力を持つことは、あなたの仕事の性質を変えるかもしれません。コード生成から、設計判断・レビュー・統合へ、仕事の中心がシフトしていく可能性があります。

逆に、AI には超複雑なシステムではまだ限界があるということも覚えておいてください。AIとの協働が最も実務的な価値を生む領域は、その中間地帯——つまり、AIが強みを発揮できても、人間の判断が確実に必要な領域——なのです。

記事をシェア

参考ソース

★ 注目 THE DECODER

LLM・生成AIの記事

GPT-5.6 Sol 完全ガイド: Sol、Terra、Luna の3階層モデルを徹底解説

LLM・生成AI

2026年6月27日

GPT-5.6 Sol 完全ガイド: Sol、Terra、Luna の3階層モデルを徹底解説

OpenAI が発表した GPT-5.6 は、フラグシップの Sol、バランス型の Terra、コスト重視の Luna という3階層構成を採用。Max モードや Ultra モードの新機能、Claude Mythos 5 との性能比較、価格設定まで、開発者が知るべきすべてを解説する。

OpenAI、AI エージェントが長タスク・複雑タスクに対応——生産性拡大の新フロンティア

LLM・生成AI

2026年6月26日

OpenAI、AI エージェントが長タスク・複雑タスクに対応——生産性拡大の新フロンティア

OpenAI が新しい研究論文で、AI エージェントが長時間かかる複雑なタスクに対応し、複数の職種にわたって生産性を拡大していることを発表。エージェント時代の仕事の未来像が示されました。

LLM・生成AI

2026年6月26日

Claude が有料市場で ChatGPT に追い上げ、1月比75%成長

Anthropic の Claude は有料ユーザー層で急速に成長。1月比で75%増、DataCamp では Claude 講座が18倍に急増。ChatGPT が支配する市場で初めて本格的な競争が生じている。

Claude Fable 5 が最高位獲得――ロシアプロパガンダベンチマーク研究、60 モデルを調査

エストニア言語研究所が、AI モデルのロシアプロパガンダへの耐性を測定するベンチマークを発表。Claude Fable 5 が 95.2 点で最高位、全 Claude モデルが上位を占める。業界の深刻な脆弱性が浮き彫りに。

Claude Fable 5 が FrontierMath で GPT-5.5 を大幅上回る、88% 対 75%

LLM・生成AI

2026年6月13日

Claude Fable 5 が FrontierMath で GPT-5.5 を大幅上回る、88% 対 75%

Anthropic の Claude Fable 5 が高難度数学ベンチマーク FrontierMath で 88% の精度を達成。OpenAI の GPT-5.5（75%）を 13 ポイント上回り、AI の数学推論能力の急速な進化を示す。

Anthropic は Claude がコード 90% 以上を執筆していることを開示、グローバル AI 開発の一時停止を提案

LLM・生成AI

2026年6月6日

Anthropic は Claude がコード 90% 以上を執筆していることを開示、グローバル AI 開発の一時停止を提案

Anthropic が新たな内部データを公表。Claude がエンジニアリング全体のコード 90% 以上を担当し、エンジニアの生産性が 2024 年比で 8 倍に加速。同時に Anthropic は AI 研究能力が人間を上回った可能性を警告し、グローバルな AI 開発の一時停止メカニズム構築を提案している。