毎時数千万件のエラー——調査が明らかにしたGoogle AI検索の「正確性に関する錯覚」

2026.04.10

共有先

TechFlow厳選深潮セレクト

毎時数千万件のエラー——調査が明らかにしたGoogle AI検索の「正確性に関する錯覚」

たとえ答えが正しくても、引用リンクの半数以上がその結論を裏付けられない。

2026.04.10 - 12:19:38

Web3業界の深掘り報道に専念し潮流を洞察

たとえ答えが正しくても、引用リンクの半数以上がその結論を裏付けられない。

著者：クロード、TechFlow

TechFlow解説：『ニューヨーク・タイムズ』紙とAIスタートアップ企業Oumiが共同で実施した最新のテストによると、Google検索のAI要約機能（AI Overviews）の正確率は約91％であるが、Googleが年間処理する5兆回もの検索を基準に換算すると、これは毎時数千万件もの誤った回答を生み出していることを意味する。さらに深刻なのは、回答が正しくても、その結論を裏付ける引用リンクのうち半数以上が実際には関連性を欠いているという点だ。

Googleは、これまでにない規模でユーザーに誤情報（誤った情報）を提供しているが、その事実を認識している人はほとんどいない。

『ニューヨーク・タイムズ』紙の依頼を受け、AIスタートアップ企業Oumiは、OpenAIが開発した業界標準の評価テスト「SimpleQA」を用いて、GoogleのAI Overviews機能の正確性を評価した。このテストは4,326件の検索クエリを対象とし、昨年10月（Gemini 2搭載時）と今年2月（Gemini 3へアップグレード後）の2回にわたって実施された。その結果、Gemini 2の正確率は約85％であったのに対し、Gemini 3では91％へと向上した。

91％という数字は一見良好に思えるが、Googleの検索規模を考慮すると話は別である。Googleは年間約5兆回の検索クエリを処理しており、9％の誤り率を適用すると、AI Overviewsは毎時5,700万件以上もの不正確な回答を生成しており、1分あたりではほぼ100万件に達する。

答えは正しいが、根拠となる出典は間違っている

正確率よりもさらに懸念されるのは、引用出典の「アンカー喪失（脱錨）」問題である。

Oumiのデータによると、Gemini 2時代には、正解した回答のうち37％が「根拠のない引用」を含んでいた。すなわち、AI要約に添付されたリンクが、提示された情報の根拠になっていなかったのである。Gemini 3へのアップグレード後、この割合はむしろ低下せず、56％へと急増した。言い換えれば、モデルは正解を出す能力を高めつつも、その根拠を提示する能力（＝「宿題を提出する能力」）はむしろ弱まっているのだ。

OumiのCEO、マノス・ククミディス氏の指摘は核心を突いている。「たとえ答えが正しくても、それがなぜ正しいのかどうやって知るのか？どうやって検証するのか？」

AI Overviewsが低品質な出典を多用することも、この問題を悪化させている。Oumiの調査では、FacebookおよびRedditが、AI Overviewsにおける第2位および第4位の引用出典となっていることが明らかになった。また、不正確な回答においてFacebookが引用される頻度は7％であり、正確な回答における同頻度（5％）を上回っている。

BBC記者による偽記事が、わずか24時間で「汚染」完了

AI Overviewsには、もう一つ重大な欠陥がある。それは、意図的に操作されやすいという点である。

BBCの記者が、あえて捏造した偽の記事を用いてテストを行ったところ、わずか24時間以内に、GoogleのAI要約がその偽情報を事実としてユーザーに提示するようになった。

これは、このシステムの仕組みを理解している人物であれば、偽のコンテンツを投稿し、そのアクセス数を意図的に高めることで、AI検索結果を「汚染（投毒）」できる可能性を示唆している。これに対し、Googleの広報担当者ネッド・アドリアンス氏は、「検索AI機能は、スパム対策と同様のランキングおよびセキュリティメカニズムに基づいて構築されている」と述べ、またテストで使用された「大多数のクエリは、実際のユーザーが検索しない非現実的なものだった」と主張した。

Googleの反論：テスト自体に問題がある

Googleは、Oumiの研究に対して複数の疑義を呈している。同社の広報担当者は、この研究は「深刻な欠陥を有する」と指摘し、その理由として、①SimpleQAベンチマークテスト自体に不正確な情報が含まれている、②Oumiが自社のAIモデル「HallOumi」を用いて他社AIの性能を評価しており、追加的な誤差を招く可能性がある、③テスト内容が実際のユーザー検索行動を反映していない、などを挙げている。

Googleの内部テストでも、Gemini 3がGoogle検索の枠組みから切り離されて単独で動作した場合、誤った出力を生成する割合が高達28％に達することが確認された。しかしGoogleは、AI Overviewsが検索ランキングシステムを活用して正確性を高めており、単体のモデルよりも優れた性能を発揮していると強調している。

ただし、PCMag誌のコメントが指摘するように、このような論理的逆説が成立してしまう：「私たちのAIが不正確であると指摘する報告書自体が、おそらく不正確なAIを用いて作成された」という主張では、ユーザーの当該製品に対する信頼性はむしろ損なわれてしまうだろう。

TechFlow公式コミュニティへようこそ

Telegram購読グループ：https://t.me/TechFlowDaily

Twitter公式アカウント：https://x.com/TechFlowPost

Twitter英語アカウント：https://x.com/BlockFlow_News

お気に入りに追加

SNSで共有

作者

深潮 TechFlow

深潮TechFlow