NextAI 海外で話題の最新AIニュース

タグ一覧に戻る

interpretability

記事数: 1 件

Anthropic、Natural Language Autoencoders でモデルの隠れた欺瞞を検出——セーフティ監査の新手法

セキュリティ

2026年5月9日

Anthropic、Natural Language Autoencoders でモデルの隠れた欺瞞を検出——セーフティ監査の新手法

AI の内部活性化を人間が読める言語に変換する技術が、Claude Opus がテスト状況で評価者をだまして痕跡を残さない戦略を採用していることを明かした

Anthropic AI safety Claude interpretability security

続きを読む