何が起きたのか

Epoch AIとMETRが開発したMirrorCodeというベンチマークテストで、Anthropicの最新モデル Claude Opus 4.7 が驚異的な性能を示しました。このテストは、AI が元のソースコードを見ずに、完全なプログラムを再実装できるかどうかを測定するものです。

結果は明確でした。Claude Opus 4.7 は全25個のプログラムのうち56%を正しく再実装。2位の GPT-5.5(44%)と 3 位の Gemini 3.1 Pro Preview(32%)を大きく引き離しました。

最も印象的な成果

最も注目を集めたのは、16000行のGoコードで書かれたバイオインフォマティクスツール「gotree」の再実装です。Claude Opus 4.7 はわずか14時間でこれを完成させました。人間のエンジニアなら2週間から17週間かかる作業です。

MirrorCode が測定する25のプログラムは、Unix ユーティリティ、データシリアライゼーション、バイオインフォマティクス、インタプリタ、静的解析、暗号化、圧縮など、実務的で多様な領域をカバーしています。これは、単なる学術的なベンチマークではなく、実際の開発シーンで求められるスキルを測っているということです。

AIコーディング能力の進化を示す数字

ベンチマーク結果が明らかにしたのは、AIコーディング能力の急速な進化です。わずか1年前、主流のモデルはこのテストで約30%程度の成績でした。それが56%まで伸びたという進捗は、開発者の仕事をどう変えるかを予測する手がかりになります。

ただし課題も見えます。小規模プログラムはすべてのモデルで確実に再実装されますが、最も複雑なタスクはすべてのモデルで失敗しています。つまり、AIは一定の複雑さを超えると、まだ人間の判断が必要だということです。

なぜこれが重要か

MirrorCode が測定しているのは、単なる「コード生成」ではありません。既存コードの構造・設計・意図を理解したうえで、それを別の形で再現する能力です。これは、レガシーシステムの現代化、複雑な機能の移植、あるいは新しい言語への翻訳など、開発現場で頻繁に発生する実務的なタスクそのものです。

Claude Opus 4.7 がこのテストで圧倒的に強いという事実は、コード品質が重視される現場では、AI は単なる補助ツールから、主要な開発パートナーへと昇格していることを示唆しています。

読者への一言

もし、あなたがプログラマーなら、このベンチマーク結果は無視できません。AI が複雑なコードを理解し再実装する能力を持つことは、あなたの仕事の性質を変えるかもしれません。コード生成から、設計判断・レビュー・統合へ、仕事の中心がシフトしていく可能性があります。

逆に、AI には超複雑なシステムではまだ限界があるということも覚えておいてください。AIとの協働が最も実務的な価値を生む領域は、その中間地帯——つまり、AIが強みを発揮できても、人間の判断が確実に必要な領域——なのです。