Stanford 大学の研究チームが、GPT-5、Gemini 3 Pro、Claude Sonnet 4.5、Claude Opus 4.5 などの最先端 AI モデルが存在しない画像に対して詳細な説明を生成する現象を検証し、その危険性を報告した。この現象は「蜃気楼効果」(mirage effect)と名付けられている。

AI が見えない画像を「説明」する問題

研究によれば、複数の最先端 AI モデルは実際には画像を処理していないにもかかわらず、存在しない画像について自信をもって詳細な説明を提供する。「AI モデルは画像が見えないことを認めず、代わりに詳細な虚構の説明を信頼度高く生成した」と研究チームは指摘している。

このような行動は、従来の評価方法ではモデルが視覚的理解能力を持つと評価されるため、実際の能力と評価結果のギャップが発生している。テキスト統計的なパターンマッチングから得られた答えと、真の視覚理解に基づく答えが区別されていないことが根本原因だ。

医療診断への深刻な影響

この問題は特に医療応用で危険性が高い。AI が X 線画像やマンモグラフなどの医療画像を「見た」と主張しながら、実際には虚偽の診断情報を生成する場合、患者の治療判断に直結する。標準的なベンチマークではテキストのみのモデルすら最先端視覚 AI および人間の医師を上回るパフォーマンスを示しており、既存評価体系の信頼性が根本的に揺らいでいる。

対策:B-Clean 評価方法

研究チームは「B-Clean」という新しい評価方法を提案している。これは画像入力なしに答えられる質問をフィルタリングして除外し、AI の実際の視覚理解能力のみを厳密に測定するアプローチだ。

既存のマルチモーダル AI 評価が視覚的コンテンツの理解ではなく隠された相関関係を利用している現状に対し、B-Clean は真の視覚的理解が要求される設問構成に変更することで、より正確な評価を可能にする。

業界への示唆

AI システムの医療・金融・セキュリティなど高リスク領域への応用が加速する中で、モデルの実際の能力と公式評価のギャップ解消が急務となった。今後、AI 企業と評価研究機関は既存ベンチマークの見直しと、より厳密な評価体系の構築に取り組む必要がある。