SWE-Explore

記事数: 1 件

2026年6月14日

AI コーディングエージェント、ファイルは見つけるが『細部の行』で失敗するベンチマーク

新ベンチマーク『SWE-Explore』が明かす Claude Code や Codex の課題。エージェントはファイルレベルでは精度が高いが、実際に修正が必要な行のわずか 14～19% しかカバーしていない。