Anthropic はセキュリティ特化のAIモデル「Claude Mythos Preview」を限定公開した。一般向けのリリースではなく、選定された顧客グループのみがアクセス可能という慎重な戦略である。

数千の脆弱性を発見、公開困難な状況

Claude Mythos の最大の特徴は、検出能力である。同モデルは、主要なすべてのオペレーティングシステムとWebブラウザに存在する数千の高度な脆弱性を発見している。

その具体例は業界の現実を示している。OpenBSD の27年前のバグ、FFmpeg の16年前の脆弱性、FreeBSD の17年前のNFSサーバー脆弱性など、長年未検出だった古い脆弱性をClaude Mythos が掘り起こした。多くは修正方法が存在しない状態である。

「リリースするには危険」という判断

このため、Anthropic は一般向けのモデル公開を見送った。OpenAI が 2019年に GPT-2 について「リリースするには危険」と判断した歴史があるが、Claude Mythos はその判断を今、実際の証拠を伴って繰り返している。

当時 GPT-2 は、危険性の証拠が不十分だとして業界から疑問視されたが、Claude Mythos の場合は異なる。データセンター、政府機関、金融システム……未修正の脆弱性が多数存在する重要インフラに対する実在するリスクが数字として示されている。

限定プレビューでセキュリティ専門家との協業

Anthropic は限定アクセスのプレビュー形式により、セキュリティ専門家との協業を進めている。これにより、発見された脆弱性の報告と修正の調整を計画的に進める狙いと考えられる。

サイバーセキュリティAIの開発が、AIリスク管理の新しい課題を生み出す状況が明確になった。