AI コーディングエージェント、ファイルは見つけるが『細部の行』で失敗するベンチマーク

2026年6月14日 18:11

💡

新ベンチマーク『SWE-Explore』が明かす Claude Code や Codex の課題。エージェントはファイルレベルでは精度が高いが、実際に修正が必要な行のわずか 14～19% しかカバーしていない。

AI のコーディングエージェント（Claude Code や Codex など）は、バグ修正が必要なファイルを正確に特定できるが、修正対象となる具体的な行を見落とす傾向が強いことが、新しいベンチマーク「SWE-Explore」で明らかになった。研究によると、エージェントは必要な行のわずか 14～19% しかカバーしていないという。

ベンチマークの課題設定

従来のコーディングエージェント評価では、バグ修正の成功か失敗かの二者択一のみで判定してきた。しかし実際には、「修正成功までのプロセス」を分解して評価する必要がある。SWE-Explore はこの分析ギャップを埋めるため、新しい評価軸を提供する。

調査規模は 848 の問題、10 プログラミング言語（Python が 547 件）、203 のオープンソースプロジェクトに及ぶ。テスト対象には GPT-5.4、Gemini 3 Pro、Claude Sonnet 4.6、Kimi K2.6 といった最強力モデルのほか、一般的なコーディングエージェント 5 種、コード検索特化型 4 種が含まれた。

発見：ファイルレベルと行レベルの落差

結果は対照的だった。ファイルレベルではエージェントは優秀だ。修正対象となるファイルを正確に特定し、早期に検索結果に表示される。ところが行レベルになると急激に精度が低下する。

一般的なコーディングエージェントは、修正に必要な行のわずか 14～19% しかカバーしていない。より強力なモデルを使用してもこの傾向は変わらない。つまり、この問題は単なる「モデル性能」ではなく、エージェントの設計思想に由来する制約なのだ。

修復成功の臨界値：50%

研究が示したもう一つの重要な発見は、修復成功には「必要なコード領域の最低 50% 以上の可視化」が不可欠であるということだ。それ以下では修復はほぼ失敗する。言い換えれば、エージェントが 19% しか見えていない状況では、修復成功の確率は極めて低いということである。

開発者への実践的示唆

研究報告は開発者向けに明確な推奨を示している。「コンテキスト不足は、余分な無関係なコードより大きな害をもたらす」ということだ。

これまでのエージェント設計では、検索結果をフィルタリングして「重要そうなコード」のみを抽出しようという試みが続いてきた。しかし SWE-Explore の結果は、この戦略が裏目に出ていることを示唆している。むしろ「フィルタリングを減らし、より広く読む」戦略が推奨される。無関係なコードが増えても、必要な行をすべて含める方が、修復成功率は高まる可能性が高い。

この知見は、Claude Code や Codex を含むコーディングエージェント全体の次世代設計に影響を与える見通しだ。単なる性能向上だけでなく、検索戦略の根本的な見直しを促すベンチマークとなった。

記事をシェア

参考ソース

★ 注目 THE DECODER

テクノロジーの記事

Microsoft が AI 覇権争いで OpenAI・Anthropic に直接対抗、自社モデル 11,000+ を展開

テクノロジー

2026年7月30日

Microsoft が AI 覇権争いで OpenAI・Anthropic に直接対抗、自社モデル 11,000+ を展開

Microsoft が決算説明会で、自社開発の AI モデル MAI シリーズ 11,000 以上を提供・Anthropic 投資から 32 億ドルの利益を計上・Mythos 対抗製品 MAI Cyber One Flash を発表。AI 市場での勢力図が大きく変わる可能性。

Google Lyria 3.5 登場──Google Flow Music で音楽生成の品質を大幅向上

テクノロジー

2026年7月30日

Google Lyria 3.5 登場──Google Flow Music で音楽生成の品質を大幅向上

Google DeepMind が Lyria 3.5 を Google Flow Music で公開。メロディ構造、歌詞品質、ボーカル表現、創造的コントロールが大幅に改善された。一般ユーザーも最新版を試せる。

本を『生きた会話相手に』——Amazon Kindle・Audible に AI 読書機能

テクノロジー

2026年7月27日

本を『生きた会話相手に』——Amazon Kindle・Audible に AI 読書機能

Amazon が Kindle と Audible に新機能を追加。読書中に登場人物や歴史背景について AI に直接質問できるようになった。Sinai.ai、My Smart Book など専門企業も次々登場。読書体験を変える一方、著作権侵害をめぐる法的議論が加速している。

Meta が Claude Code と Codex の社内利用を制限、AI 企業間の信頼危機が深刻化

Meta は Anthropic の Claude Code と OpenAI の Codex を従業員の使用から制限。競合 AI の訓練データ汚染を防ぐ狙いだが、業界全体での「蒸留」不安が高まっている。

Microsoft SkillOpt、Markdown ファイルで AI エージェントを自動最適化――GPT-5.5 で 23 ポイント向上

テクノロジー

2026年6月13日

Microsoft SkillOpt、Markdown ファイルで AI エージェントを自動最適化――GPT-5.5 で 23 ポイント向上

Microsoft と中国の大学が共同開発した SkillOpt は、Markdown ファイルに記述されたスキル文書を「訓練可能なパラメータ」として扱い、自動最適化する手法。Codex や Claude Code など複数の環境に転移可能で、開発者が手軽に AI エージェントの性能を高められる実用的な技術。

Deepseek、Claude Code 対抗のコーディングエージェント「Deepseek Code」開発を発表

LLM・生成AI

2026年5月21日

Deepseek、Claude Code 対抗のコーディングエージェント「Deepseek Code」開発を発表

中国の AI スタートアップ Deepseek が Beijing に新しいチーム「Harness」を設立し、Claude Code・OpenAI Codex・Cursor に対抗するコーディングエージェント「Deepseek Code」の開発を発表した。Agent Loops・MCP・コンテキストエンジニアリングなど高度なスキルを持つ人材を募集している。