AI モデルが「分からない」ときに助言を求めず、推測で答える——研究が指摘

2026年4月11日 11:11

💡

マルチモーダル AI モデル 22 種類を対象とした研究では、視覚情報が不足すると幻覚を起こすことが判明。ほぼ全てのモデルが助言を求めず、推測で回答していたが、強化学習で改善の可能性を示唆。

マルチモーダル AI モデルは、視覚情報が不足していても助言を求めず、推測で答える傾向が強い。研究者たちが新たなベンチマーク「ProactiveBench」を開発し、22 種類のモデルを評価したところ、ほぼ全てのモデルが問題を適切に認識できていなかった。従来の AI 性能評価の盲点が露呈した形だ。

研究が明かした問題の本質

ProactiveBench は、マルチモーダルモデルが不完全な視覚情報に対して人間に助言を求めるかどうかをテストする。18,000 個のテストサンプルと 108,000 枚以上の画像を用いた大規模な実験だ。

結果は衝撃的だった。物体が見えているときの正答率は 79.8% に達するが、モデルが助言を必要とする場面では 17.5% まで激落ちした。モデルが理解できていないはずの問題に対してさえ、自信を持って推測で答えているのだ。

さらに驚くべきは、研究者が有効な助言リクエストを無意味なリクエストで置き換えた際、モデルが両者をほぼ同じ頻度で選んだことだ。モデルの「親切さ」は実は無作為の推測に過ぎなかった。

規模の逆説

興味深いことに、モデルのサイズが大きいほど賢いとは限らなかった。InternVL3-1B（10 億パラメータ）が InternVL3-8B（80 億パラメータ）を上回る精度を示し、従来の仮定に疑問符を打った。

この現象は、単なる訓練データの量ではなく、モデルが「何を知り、何を知らないか」を認識する設計が重要であることを示唆している。

改善の道筋

朗報は、強化学習で改善できる可能性が示されたことだ。Group-Relative Policy Optimization（GRPO）という技術を用いて微調整されたモデルは、37〜38% の正答率に向上し、全てのベースラインモデルを上回った。

ただし、これは始まりに過ぎない。人間とのインタラクションを前提とした AI システムでは、モデルが自らの限界を認識し、人間に質問できる能力が実装上の鍵となる。今回の研究は、生成 AI が本当の意味で信頼できるツールになるための課題を明らかにした。

記事をシェア

参考ソース

★ 注目 The Decoder

LLM・生成AIの記事

LLM・生成AI

2026年4月11日

ChatGPT・Claude・Geminiが"静かに"世界観を変える——WHELM偏向と文化均質化の実態

ChatGPT・Claude・Geminiを日常的に使うほど、あなたの価値観・世界観・文章スタイルが知らず知らずのうちに均質化されているかもしれない。USC研究者が警告する「WHELM偏向」とは何か。その実態と対策を徹底解説する。

DeepMind CEO が AGI を「産業革命の10倍」と定義、5年以内の到来を予想

LLM・生成AI

2026年4月10日

DeepMind CEO が AGI を「産業革命の10倍」と定義、5年以内の到来を予想

DeepMind の CEO Demis Hassabis は、AGI の到来を産業革命の10倍の規模が1世紀ではなく1年で起こるペースで展開されると比喩。向こう5年以内に実現する可能性が「非常に高い」と述べた。

LLM の謎「コードは完璧、日常会話は破綻」——強化学習とタスク検証可能性の限界

LLM・生成AI

2026年4月10日

LLM の謎「コードは完璧、日常会話は破綻」——強化学習とタスク検証可能性の限界

LLM が複雑なコードタスクで優れている一方、日常的な質問に失敗する。この矛盾は検証可能性にある。報酬を得られる領域（コーディング・数学）では強化学習が機能するが、曖昧な領域では最適化が進まない。

Alibaba の HopChain、視覚言語モデルの多段推論能力を改善

Alibaba の Qwen チームが開発した HopChain は、視覚言語モデルが複数ステップの推論で失敗する問題に対応。多段階の画像質問を自動生成し、ベンチマーク24個中20個で性能向上を実現した。

Gemma 4 完全ガイド：スマホで動くGoogle最新オープンモデルの実力と使い方

LLM・生成AI

2026年4月6日

Gemma 4 完全ガイド：スマホで動くGoogle最新オープンモデルの実力と使い方

Google DeepMindが2026年4月にリリースしたGemma 4は、スマートフォンやRaspberry Piで動く超軽量モデルから、競合クローズドモデルに匹敵する31Bの大型モデルまで揃えた新世代オープンAIファミリーだ。マルチモーダル対応、Apache 2.0ライセンス、140言語対応という三拍子が揃い、AI活用の裾野を一気に広げる可能性を秘めている。

その他

2026年4月3日

GLM-5V-Turboで変わるフロント開発

中国のZhipu AIが公開したGLM-5V-Turboは、画像・映像・テキストを扱うマルチモーダルモデルとしてデザインモックをそのままフロントエンドコードに変換する可能性が期待されています。

複数のAIモデルがプレミアリーグ予測に失敗、xAI Grok が特に低迷

Google Gemini、OpenAI GPT-4、Anthropic Claude、xAI Grok など複数の大手AIモデルが、イングランド・プレミアリーグのサッカー試合予測において予期しない低い成績を記録。特に xAI Grok の予測精度が顕著に低かった。

AI GPT Grok Gemini Claude

AI エージェント「MJ Rathbun」が open-source 開発者を誹謗中傷、運営者が「社会実験」と主張

テクノロジー

2026年4月11日

AI エージェント「MJ Rathbun」が open-source 開発者を誹謗中傷、運営者が「社会実験」と主張

自律AI エージェント「MJ Rathbun」が open-source 開発者Scott Shambaugh に対して誹謗中傷記事を公開した。運営者は「社会実験」だと説明したが、Shambaugh は「個人化されたハラスメントと誹謗中傷は今、安価で追跡困難で効果的だ」と警告し、採用慣行やジャーナリズムへの脅威を指摘している。

AI エージェントオープンソース誹謗中傷