
시간당 수천만 건의 오류 — 조사 결과 드러난 구글 AI 검색의 ‘정확도 환상’
저자: 클로드, TechFlow
TechFlow 편집장의 추천: 《뉴욕 타임스》가 AI 스타트업 Oumi와 공동으로 실시한 최신 테스트에 따르면, 구글 검색의 AI 요약 기능(AI Overviews) 정확도는 약 91%에 달하지만, 구글이 연간 처리하는 약 5조 건의 검색량을 고려하면 매시간 수천만 개의 오답이 생성되는 셈이다. 더 심각한 문제는, 답변 자체가 정확하더라도 그 결론을 뒷받침하는 인용 링크 중 절반 이상이 사실과 무관하다는 점이다.
구글은 전례 없는 규모로 사용자에게 오정보를 전달하고 있으나, 대부분의 사람들은 이 사실조차 모른다.
《뉴욕 타임스》 보도에 따르면, AI 스타트업 Oumi가 위탁받아 OpenAI가 개발한 업계 표준 테스트인 SimpleQA를 활용해 구글의 AI Overviews 기능 정확도를 평가했다. 이번 테스트는 총 4,326건의 검색 질의를 대상으로 하였으며, 작년 10월(Gemini 2 기반)과 올해 2월(Gemini 3로 업그레이드 후) 두 차례에 걸쳐 실시되었다. 결과에 따르면, Gemini 2의 정확도는 약 85%였고, Gemini 3에서는 91%로 향상되었다.
91%는 인상적으로 들릴 수 있으나, 구글의 검색 규모를 고려하면 상황은 완전히 달라진다. 구글은 연간 약 5조 건의 검색 질의를 처리하는데, 9%의 오류율을 적용하면 AI Overviews는 매시간 5,700만 개 이상의 부정확한 답변을 생성하며, 분당 약 100만 개에 달한다.
답변은 맞지만 출처는 틀렸다
정확도보다 더욱 우려스러운 것은 인용 출처의 ‘근거 부재’ 문제다.
Oumi의 데이터에 따르면, Gemini 2 시기에는 정확한 답변 중 37%가 ‘근거 없는 인용’ 문제를 보였다. 즉, AI 요약에 첨부된 링크가 해당 정보를 실제로 지지하지 않는다는 의미다. Gemini 3로 업그레이드된 후 이 비율은 오히려 감소하지 않고 56%로 급증했다. 다시 말해, 모델은 정확한 답변을 제시하면서도 점점 더 ‘숙제를 제출하지 않게’ 되고 있는 것이다.
Oumi의 CEO 마노스 쿠쿠미디스(Manos Koukoumidis)는 핵심을 찌르는 질문을 던졌다. “답변이 맞다고 해도, 그것이 왜 맞는지 어떻게 알 수 있습니까? 또 어떻게 검증할 수 있습니까?”
AI Overviews가 저품질 출처를 과도하게 인용하는 것도 이러한 문제를 악화시키고 있다. Oumi는 Facebook과 Reddit이 각각 AI Overviews에서 두 번째와 네 번째로 많이 인용되는 출처임을 밝혀냈다. 부정확한 답변에서는 Facebook 인용 비율이 7%에 달해, 정확한 답변에서의 5%보다 높았다.
BBC 기자의 가짜 기사 한 편이 24시간 만에 ‘독침’을 성공시키다
AI Overviews의 또 다른 심각한 취약점은 조작에 매우 취약하다는 점이다.
BBC 소속 한 기자가 고의로 작성한 허위 기사를 테스트에 사용했더니, 불과 24시간 이내에 구글의 AI 요약이 그 허위 정보를 사실처럼 사용자에게 제시했다.
이는 시스템 작동 원리를 아는 누구라도 허위 콘텐츠를 게시하고 트래픽을 인위적으로 끌어올려 AI 검색 결과를 ‘오염시킬’ 수 있음을 의미한다. 이에 대해 구글 대변인 네드 아드리언스(Ned Adriance)는 “검색 AI 기능은 스팸 차단과 동일한 순위 산정 및 보안 메커니즘 위에 구축되어 있다”고 반박하며, 테스트 사례 중 “대부분은 실제 사용자들이 검색하지 않을 비현실적인 질의”라고 주장했다.
구글의 반박: 테스트 자체에 문제가 있다
구글은 Oumi의 연구에 대해 여러 가지 의문을 제기했다. 구글 대변인은 이 연구가 “중대한 결함이 있다”고 주장하며, 그 근거로 다음과 같은 점들을 들었다. 첫째, SimpleQA 벤치마크 자체에 부정확한 정보가 포함되어 있다는 점; 둘째, Oumi가 자체 AI 모델 HallOumi를 이용해 다른 AI의 성능을 평가함으로써 추가 오류를 유발할 수 있다는 점; 셋째, 테스트 내용이 실제 사용자의 검색 행동을 반영하지 못한다는 점 등이다.
구글 내부 테스트 결과에 따르면, Gemini 3는 구글 검색 프레임워크를 벗어나 독립적으로 실행될 경우 허위 출력을 생성할 확률이 무려 28%에 달한다. 그러나 구글은 AI Overviews가 검색 순위 시스템을 활용해 정확도를 높이며, 모델 단독으로 작동할 때보다 훨씬 나은 성능을 보인다고 강조했다.
다만 PCMag의 논평이 지적한 바에 따르면, 이는 논리적 역설이다. 즉, “우리 AI가 부정확하다고 지적하는 보고서 자체가 또 다른 부정확할 수 있는 AI를 사용했다”는 변명은, 오히려 제품의 정확성에 대한 사용자 신뢰를 높이기보다는 약화시킬 가능성이 크다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News














