Claude Opus 4.7、MirrorCodeベンチマークでAI最強の再実装スキルを実証——ソースなしで16000行Go再構築
Epoch AIとMETRが開発したMirrorCodeベンチマークで、Claude Opus 4.7が56%の解決率で最高性能を達成。元のコードなしで複雑なプログラムを再実装するAIの能力が、開発者ワークフローを大きく変える可能性を示しました。
何が起きたのか
Epoch AIとMETRが開発したMirrorCodeというベンチマークテストで、Anthropicの最新モデル Claude Opus 4.7 が驚異的な性能を示しました。このテストは、AI が元のソースコードを見ずに、完全なプログラムを再実装できるかどうかを測定するものです。
結果は明確でした。Claude Opus 4.7 は全25個のプログラムのうち56%を正しく再実装。2位の GPT-5.5(44%)と 3 位の Gemini 3.1 Pro Preview(32%)を大きく引き離しました。
最も印象的な成果
最も注目を集めたのは、16000行のGoコードで書かれたバイオインフォマティクスツール「gotree」の再実装です。Claude Opus 4.7 はわずか14時間でこれを完成させました。人間のエンジニアなら2週間から17週間かかる作業です。
MirrorCode が測定する25のプログラムは、Unix ユーティリティ、データシリアライゼーション、バイオインフォマティクス、インタプリタ、静的解析、暗号化、圧縮など、実務的で多様な領域をカバーしています。これは、単なる学術的なベンチマークではなく、実際の開発シーンで求められるスキルを測っているということです。
AIコーディング能力の進化を示す数字
ベンチマーク結果が明らかにしたのは、AIコーディング能力の急速な進化です。わずか1年前、主流のモデルはこのテストで約30%程度の成績でした。それが56%まで伸びたという進捗は、開発者の仕事をどう変えるかを予測する手がかりになります。
ただし課題も見えます。小規模プログラムはすべてのモデルで確実に再実装されますが、最も複雑なタスクはすべてのモデルで失敗しています。つまり、AIは一定の複雑さを超えると、まだ人間の判断が必要だということです。
なぜこれが重要か
MirrorCode が測定しているのは、単なる「コード生成」ではありません。既存コードの構造・設計・意図を理解したうえで、それを別の形で再現する能力です。これは、レガシーシステムの現代化、複雑な機能の移植、あるいは新しい言語への翻訳など、開発現場で頻繁に発生する実務的なタスクそのものです。
Claude Opus 4.7 がこのテストで圧倒的に強いという事実は、コード品質が重視される現場では、AI は単なる補助ツールから、主要な開発パートナーへと昇格していることを示唆しています。
読者への一言
もし、あなたがプログラマーなら、このベンチマーク結果は無視できません。AI が複雑なコードを理解し再実装する能力を持つことは、あなたの仕事の性質を変えるかもしれません。コード生成から、設計判断・レビュー・統合へ、仕事の中心がシフトしていく可能性があります。