Anthropic は Claude Opus 4.7 をリリースし、自動コーディングにおいて従来モデルから大幅な性能向上を実現した。SWE-bench Pro ベンチマークで 64.3% を達成し、OpenAI の最新モデル GPT-5.4(57.7%)を上回った。同時に、セキュリティ上の理由からサイバー機能を意図的に制限する新しいアプローチも採用している。

コーディング性能の躍進

Claude Opus 4.7 は前世代の Opus 4.6(53.4%)から 10.9 ポイントの改善を記録した。SWE-bench Pro は実際のソフトウェアエンジニアリングタスクを難度順に含むベンチマークで、LLM のコーディング能力を計測する業界標準となっている。この成績は業界で最高レベルであり、特に複雑な開発タスクの自動化における Anthropic の競争力を示している。

画像処理能力も大幅に強化された。最大解像度が 3 倍に拡大され、1 枚あたり最大 2,576 ピクセルを処理できるようになった。これは約 3.75 メガピクセルに相当する。ドキュメント推論精度も OfficeQA Pro ベンチマークで 57.1% から 80.6% へと向上し、PDF や画像から複雑な情報を抽出する用途に強みを持つようになった。

セキュリティを意識した設計

Anthropic は Opus 4.7 の開発段階で、特定のサイバーセキュリティ関連の能力を意図的に削減する試みを行った。これは LLM が悪用される可能性を認識し、あらかじめ制限を加えるアプローチである。高リスクのサイバーセキュリティリクエストを自動的に検出・ブロックするセーフガードが組み込まれている。

セキュリティ研究者が正当な目的での検証を行う場合、新たに開設された「Cyber Verification Program」に申請することで、限定的なアクセスが可能になる。これにより、LLM のセキュリティ機能と社会的責任のバランスを取る姿勢が表現されている。

プロンプト解釈の厳密化

Opus 4.7 は Opus 4.6 よりも指示をより文字通りに解釈する傾向を持つ。前世代では「指示の一部を見落とす、あるいは自由に解釈する」という柔軟な振る舞いがあったが、Opus 4.7 では厳密性が優先される。既存の Opus 4.6 向けプロンプトを使用する場合、挙動の違いに注意が必要である。

コスト面での注意点

トークンあたりの基本価格は据え置かれ、入力が 100 万トークンあたり 5 ドル、出力が 25 ドルのままである。ただし新しいトークナイザーの導入により、同じテキストが従来より最大 35% 多くトークン化される可能性がある。実際の利用コストを見積もる際には、この点を考慮する必要がある。

業界への影響

Opus 4.7 の性能向上は、エンジニアリング業界における LLM の活用範囲をさらに拡張する。コーディング支援ツールとしての信頼性が向上することで、より複雑で自動化の難しかったタスクが LLM でカバー可能になる。同時に、セキュリティ面での配慮が設計段階で組み込まれていることは、LLM 開発における責任ある設計の一例を示している。Anthropic のこうした取り組みは、業界全体の安全性への認識を高める契機となるだろう。