Google の AI Overviews 精度 91%、だが毎時「400万件の誤答」を生成か
Google の AI Overviews 精度は Gemini 3 で 91% との研究結果が報告されたが、同社のスケールでは毎時数百万件の誤った回答が生成される。さらに、正しい回答の半分以上が引用元で検証できず、透明性と信頼性の課題が浮き彫りに。
AI スタートアップ Oumi による研究で、Google の AI Overviews が 91% の精度で正確な回答を提供していることが判明した。しかし、Google のスケールに照らし合わせると、毎時数百万件の誤った回答が生成されていることになり、ユーザーの信頼を揺るがす可能性がある。
「9割正確」の陰に隠れた課題
New York Times の依頼で実施されたこの研究では、SimpleQA ベンチマークを使用して 4,326 件の Google 検索を分析した。結果は以下の通りである:
- Gemini 2: 85% の精度
- Gemini 3: 91% の精度
一見すると、精度の改善は好ましい傾向に思える。しかし、The Decoder の報道によると「Google のスケールでは、9割の成功率であっても毎時数百万件の誤った回答が生成される」ことになる。この数字の重みを理解するうえで、表面的な「正確性」は十分な指標ではないことが明らかになった。
検証可能性の深刻な低下
より深刻な問題は、回答の検証可能性の低下である。Gemini 3 では、正確とされた回答の 56% が提供された引用元を通じて実際には検証できなかった。これに対し、前バージョン(Gemini 2)では同じ問題が 37% にとどまっていた。
加えて、Google は Facebook や Reddit といった信頼性に疑問がある情報源を頻繁に引用していることが判明した。これらのソースが上位 4 位以内にランクインしているという事実は、AI による回答の信頼性に対する疑問をさらに深める。
Google の反論と業界への影響
Google はこの研究に対し、SimpleQA ベンチマークが「不正確な情報を含んでおり、Google での実際の検索行動を反映していない」と反論している。しかし、より根本的な課題として指摘されているのは、Google が直接回答を提供することで、外部の Web サイトへのトラフィックを削減し、パブリッシャーの経済基盤を脅かしているという点である。
AI Overviews の導入は、ユーザー体験の向上を狙ったものだが、その過程で情報の出所となるメディアやパブリッシャーへの影響は十分に考慮されていない可能性がある。精度と透明性、そして情報エコシステムのバランスをどう取るかが、Google に問われる重要な課題となっている。