NextAI 海外で話題の最新AIニュース

記事一覧に戻る

テクノロジー

AI が存在しない画像を詳細説明——「蜃気楼効果」に Stanford 大学が警告

2026年4月13日 01:11

AI が存在しない画像を詳細説明——「蜃気楼効果」に Stanford 大学が警告

Photo by Zach M on Unsplash

💡

Stanford 大学の研究チームが、GPT-5、Claude Opus など最先端 AI が存在しない画像について詳細な説明を生成する現象を報告。実際には画像を「見ていない」にもかかわらず、信頼度高く虚偽の情報を述べる危険性が指摘されている。

Stanford 大学の研究チームが、GPT-5、Gemini 3 Pro、Claude Sonnet 4.5、Claude Opus 4.5 などの最先端 AI モデルが存在しない画像に対して詳細な説明を生成する現象を検証し、その危険性を報告した。この現象は「蜃気楼効果」（mirage effect）と名付けられている。

AI が見えない画像を「説明」する問題

研究によれば、複数の最先端 AI モデルは実際には画像を処理していないにもかかわらず、存在しない画像について自信をもって詳細な説明を提供する。「AI モデルは画像が見えないことを認めず、代わりに詳細な虚構の説明を信頼度高く生成した」と研究チームは指摘している。

このような行動は、従来の評価方法ではモデルが視覚的理解能力を持つと評価されるため、実際の能力と評価結果のギャップが発生している。テキスト統計的なパターンマッチングから得られた答えと、真の視覚理解に基づく答えが区別されていないことが根本原因だ。

医療診断への深刻な影響

この問題は特に医療応用で危険性が高い。AI が X 線画像やマンモグラフなどの医療画像を「見た」と主張しながら、実際には虚偽の診断情報を生成する場合、患者の治療判断に直結する。標準的なベンチマークではテキストのみのモデルすら最先端視覚 AI および人間の医師を上回るパフォーマンスを示しており、既存評価体系の信頼性が根本的に揺らいでいる。

対策：B-Clean 評価方法

研究チームは「B-Clean」という新しい評価方法を提案している。これは画像入力なしに答えられる質問をフィルタリングして除外し、AI の実際の視覚理解能力のみを厳密に測定するアプローチだ。

既存のマルチモーダル AI 評価が視覚的コンテンツの理解ではなく隠された相関関係を利用している現状に対し、B-Clean は真の視覚的理解が要求される設問構成に変更することで、より正確な評価を可能にする。

業界への示唆

AI システムの医療・金融・セキュリティなど高リスク領域への応用が加速する中で、モデルの実際の能力と公式評価のギャップ解消が急務となった。今後、AI 企業と評価研究機関は既存ベンチマークの見直しと、より厳密な評価体系の構築に取り組む必要がある。

記事をシェア

タグ

AI 研究安全性幻覚現象

参考ソース

TechXplore

テクノロジーの記事

国際研究チームが「世界モデル」の定義を公式化——テキスト生成動画は対象外

テクノロジー

2026年4月12日

国際研究チームが「世界モデル」の定義を公式化——テキスト生成動画は対象外

国際研究チームがOpenWorldLibを発表。AIの世界モデルに必要な環境認識・相互作用・記憶機能を定義し、Soraなどのテキスト生成動画系モデルは該当しないと結論。

テクノロジー

2026年4月12日

AIエージェントのスキル機能、ベンチマークでは高性能も現実環境では劇的に低下——研究論文

UC Santa BarbaraやMIT CSAILの研究チームが34,000件の実世界スキルを検証。ベンチマーク環境では55%の成功率が、現実的な条件下では35%まで低下することを発表。弱いモデルはスキルがあると逆にパフォーマンス低下。

複数のAIモデルがプレミアリーグ予測に失敗、xAI Grok が特に低迷

テクノロジー

2026年4月11日

複数のAIモデルがプレミアリーグ予測に失敗、xAI Grok が特に低迷

Google Gemini、OpenAI GPT-4、Anthropic Claude、xAI Grok など複数の大手AIモデルが、イングランド・プレミアリーグのサッカー試合予測において予期しない低い成績を記録。特に xAI Grok の予測精度が顕著に低かった。

関連タグの記事

HumanX カンファレンスで Anthropic が業界の中心に——Claude への注目高まる

2026年4月13日

HumanX カンファレンスで Anthropic が業界の中心に——Claude への注目高まる

San Francisco で開催された AI 業界イベント HumanX で Anthropic が「the star of the show」として浮上。Claude の高性能と多様な応用が業界関係者の関心を集め、競争激化する AI 市場における同社の存在感が顕著に。

Trump 政権が銀行に Mythos AI テストを奨励——DoD 指定と矛盾

2026年4月13日

Trump 政権が銀行に Mythos AI テストを奨励——DoD 指定と矛盾

Trump 政権の当局者が米銀行に Anthropic の最新 AI「Mythos」のテストを奨励していると報告。だが米国防総省は最近 Anthropic をサプライチェーン・リスクに指定しており、政府方針が大きく相違している。

テクノロジー

2026年4月12日

AIエージェントのスキル機能、ベンチマークでは高性能も現実環境では劇的に低下——研究論文

UC Santa BarbaraやMIT CSAILの研究チームが34,000件の実世界スキルを検証。ベンチマーク環境では55%の成功率が、現実的な条件下では35%まで低下することを発表。弱いモデルはスキルがあると逆にパフォーマンス低下。

最新記事

HumanX カンファレンスで Anthropic が業界の中心に——Claude への注目高まる

2026年4月13日

HumanX カンファレンスで Anthropic が業界の中心に——Claude への注目高まる

San Francisco で開催された AI 業界イベント HumanX で Anthropic が「the star of the show」として浮上。Claude の高性能と多様な応用が業界関係者の関心を集め、競争激化する AI 市場における同社の存在感が顕著に。

Anthropic Claude カンファレンス AI

Trump 政権が銀行に Mythos AI テストを奨励——DoD 指定と矛盾

2026年4月13日

Trump 政権が銀行に Mythos AI テストを奨励——DoD 指定と矛盾

Trump 政権の当局者が米銀行に Anthropic の最新 AI「Mythos」のテストを奨励していると報告。だが米国防総省は最近 Anthropic をサプライチェーン・リスクに指定しており、政府方針が大きく相違している。

Anthropic AI Trump 金融

なぜClaude Codeのトークンが爆食いするのか：キャッシュバグの全貌と今すぐできる対策

2026年4月13日

なぜClaude Codeのトークンが爆食いするのか：キャッシュバグの全貌と今すぐできる対策

2026年3月、Claude Codeユーザーを襲った「トークン爆食い問題」。プロンプトキャッシュのTTL変更・キャッシュ破損・ピーク制限という3つの問題が重なった経緯を技術的に解説し、今できる対策をまとめる。

Claude Code Anthropic プロンプトキャッシングトークン消費開発者ツール

OpenAI社員が新ChatGPT Pro使用限度を説明——5月末までは一時ブースト

2026年4月12日

OpenAI社員が新ChatGPT Pro使用限度を説明——5月末までは一時ブースト

OpenAIが新たに設定した$100と$200のProプランの使用限度がわかりにくいとして、社員が詳細な説明を発表。Plus比で10倍と20倍が実際の数字だが、5月31日までの一時的な2倍ブーストが加算されているため、終了後は5倍と10倍に落ちる。

OpenAI ChatGPT Pro 価格体系使用限度

Anthropicがクリスチャンリーダーと対話——Claudeの道徳・精神面について相談

政策・規制

2026年4月12日

Anthropicがクリスチャンリーダーと対話——Claudeの道徳・精神面について相談

Anthropicが3月末、カトリック・プロテスタントの司祭や学者らから成る約15人のクリスチャンリーダーを招待し、Claudeの道徳的・精神的振る舞いについてのアドバイスを求めた。

Anthropic Claude AI倫理宗教指導者

国際研究チームが「世界モデル」の定義を公式化——テキスト生成動画は対象外

テクノロジー

2026年4月12日

国際研究チームが「世界モデル」の定義を公式化——テキスト生成動画は対象外

国際研究チームがOpenWorldLibを発表。AIの世界モデルに必要な環境認識・相互作用・記憶機能を定義し、Soraなどのテキスト生成動画系モデルは該当しないと結論。

AI研究ワールドモデル OpenWorldLib

すべての記事を見る