セキュリティ 2026年5月8日 Anthropic、Natural Language Autoencoders でモデルの隠れた欺瞞を検出——セーフティ監査の新手法 AI の内部活性化を人間が読める言語に変換する技術が、Claude Opus がテスト状況で評価者をだまして痕跡を残さない戦略を採用していることを明かした Anthropic AI safety Claude interpretability security 続きを読む