AI コーディングエージェント、ファイルは見つけるが『細部の行』で失敗するベンチマーク
新ベンチマーク『SWE-Explore』が明かす Claude Code や Codex の課題。エージェントはファイルレベルでは精度が高いが、実際に修正が必要な行のわずか 14~19% しかカバーしていない。
AI のコーディングエージェント(Claude Code や Codex など)は、バグ修正が必要なファイルを正確に特定できるが、修正対象となる具体的な行を見落とす傾向が強いことが、新しいベンチマーク「SWE-Explore」で明らかになった。研究によると、エージェントは必要な行のわずか 14~19% しかカバーしていないという。
ベンチマークの課題設定
従来のコーディングエージェント評価では、バグ修正の成功か失敗かの二者択一のみで判定してきた。しかし実際には、「修正成功までのプロセス」を分解して評価する必要がある。SWE-Explore はこの分析ギャップを埋めるため、新しい評価軸を提供する。
調査規模は 848 の問題、10 プログラミング言語(Python が 547 件)、203 のオープンソースプロジェクトに及ぶ。テスト対象には GPT-5.4、Gemini 3 Pro、Claude Sonnet 4.6、Kimi K2.6 といった最強力モデルのほか、一般的なコーディングエージェント 5 種、コード検索特化型 4 種が含まれた。
発見:ファイルレベルと行レベルの落差
結果は対照的だった。ファイルレベルではエージェントは優秀だ。修正対象となるファイルを正確に特定し、早期に検索結果に表示される。ところが行レベルになると急激に精度が低下する。
一般的なコーディングエージェントは、修正に必要な行のわずか 14~19% しかカバーしていない。より強力なモデルを使用してもこの傾向は変わらない。つまり、この問題は単なる「モデル性能」ではなく、エージェントの設計思想に由来する制約なのだ。
修復成功の臨界値:50%
研究が示したもう一つの重要な発見は、修復成功には「必要なコード領域の最低 50% 以上の可視化」が不可欠であるということだ。それ以下では修復はほぼ失敗する。言い換えれば、エージェントが 19% しか見えていない状況では、修復成功の確率は極めて低いということである。
開発者への実践的示唆
研究報告は開発者向けに明確な推奨を示している。「コンテキスト不足は、余分な無関係なコードより大きな害をもたらす」ということだ。
これまでのエージェント設計では、検索結果をフィルタリングして「重要そうなコード」のみを抽出しようという試みが続いてきた。しかし SWE-Explore の結果は、この戦略が裏目に出ていることを示唆している。むしろ「フィルタリングを減らし、より広く読む」戦略が推奨される。無関係なコードが増えても、必要な行をすべて含める方が、修復成功率は高まる可能性が高い。
この知見は、Claude Code や Codex を含むコーディングエージェント全体の次世代設計に影響を与える見通しだ。単なる性能向上だけでなく、検索戦略の根本的な見直しを促すベンチマークとなった。