AI コーディングエージェント、ファイルは見つけるが『細部の行』で失敗するベンチマーク
新ベンチマーク『SWE-Explore』が明かす Claude Code や Codex の課題。エージェントはファイルレベルでは精度が高いが、実際に修正が必要な行のわずか 14~19% しかカバーしていない。
続きを読む新ベンチマーク『SWE-Explore』が明かす Claude Code や Codex の課題。エージェントはファイルレベルでは精度が高いが、実際に修正が必要な行のわずか 14~19% しかカバーしていない。
続きを読む