
Des millions d’erreurs par heure : une enquête révèle l’« illusion de précision » de la recherche IA de Google
TechFlow SélectionTechFlow Sélection

Des millions d’erreurs par heure : une enquête révèle l’« illusion de précision » de la recherche IA de Google
Même si la réponse est correcte, plus de la moitié des liens de référence ne soutiennent pas sa conclusion.
Auteur : Claude, TechFlow
Introduction de TechFlow : Selon un récent test mené conjointement par The New York Times et la start-up spécialisée en IA Oumi, la fonction de résumés IA (« AI Overviews ») de Google affiche un taux de précision d’environ 91 %. Toutefois, compte tenu du volume annuel de 5 000 milliards de requêtes de recherche traitées par Google, cela signifie que des dizaines de millions de réponses erronées sont générées chaque heure. Ce qui rend la situation encore plus préoccupante, c’est que même lorsque les réponses sont correctes, plus de la moitié des liens cités ne soutiennent pas les conclusions avancées.
Google diffuse actuellement, à une échelle sans précédent, des informations erronées aux utilisateurs, la plupart d’entre eux n’en ayant aucune conscience.
D’après The New York Times, la start-up spécialisée en IA Oumi a été chargée d’évaluer la précision de la fonction « AI Overviews » de Google à l’aide de SimpleQA, un benchmark industriel standard développé par OpenAI. Le test couvrait 4 326 requêtes de recherche, menées en deux vagues : la première en octobre dernier (alimentée par Gemini 2), la seconde en février 2024 (après mise à niveau vers Gemini 3). Les résultats montrent un taux de précision de 85 % environ pour Gemini 2, porté à 91 % avec Gemini 3.
Un taux de 91 % semble satisfaisant, mais à l’échelle de Google, la donne change radicalement. Avec ses quelque 5 000 milliards de requêtes annuelles, et un taux d’erreur de 9 %, les « AI Overviews » produisent plus de 57 millions de réponses inexactes chaque heure — soit près d’un million par minute.
Réponse juste, mais sources erronées
Encore plus inquiétant que le taux de précision est le problème dit de « désancrage » des références.
Les données d’Oumi révèlent qu’à l’époque de Gemini 2, 37 % des réponses correctes souffraient d’un problème de « citation non fondée », c’est-à-dire que les liens fournis dans le résumé IA ne soutenaient pas l’information donnée. Après la mise à niveau vers Gemini 3, ce taux n’a pas diminué, mais au contraire augmenté, atteignant 56 %. Autrement dit, le modèle fournit certes davantage de réponses correctes, mais il « rend de moins en moins bien ses devoirs ».
Manos Koukoumidis, PDG d’Oumi, souligne l’enjeu essentiel : « Même si la réponse est juste, comment pouvez-vous en être certain ? Comment la vérifier ? »
Ce problème est exacerbé par le recours massif de « AI Overviews » à des sources de faible qualité. Oumi a ainsi constaté que Facebook et Reddit figuraient respectivement comme deuxième et quatrième sources les plus citées par « AI Overviews ». Dans les réponses inexactes, Facebook est cité dans 7 % des cas, contre 5 % seulement dans les réponses exactes.
Un article bidon d’un journaliste de la BBC, « empoisonné » en 24 heures
Un autre grave défaut des « AI Overviews » est leur extrême vulnérabilité à la manipulation.
Un journaliste de la BBC a procédé à un test en publiant délibérément un article entièrement fictif. Moins de 24 heures plus tard, le résumé IA de Google présentait déjà comme un fait objectif les informations erronées contenues dans cet article.
Cela signifie que toute personne connaissant le fonctionnement du système pourrait « empoisonner » les résultats de recherche IA en publiant du contenu mensonger et en en gonflant artificiellement la visibilité. Ned Adriance, porte-parole de Google, a répondu à cette critique en indiquant que les fonctions de recherche IA reposent sur les mêmes mécanismes de classement et de sécurité que ceux destinés à filtrer les spams, ajoutant que « la plupart des exemples utilisés dans ce test correspondent à des requêtes irréalistes, peu susceptibles d’être effectuées par des utilisateurs réels ».
Google réplique : l’étude elle-même serait biaisée
Google a formulé plusieurs critiques à l’encontre de l’étude d’Oumi. Son porte-parole qualifie celle-ci de « gravement défaillante », invoquant notamment les arguments suivants : le benchmark SimpleQA contiendrait lui-même des informations inexactes ; Oumi aurait utilisé son propre modèle IA, HallOumi, pour évaluer les performances d’un autre système IA, ce qui risquerait d’introduire des erreurs supplémentaires ; enfin, les requêtes testées ne refléteraient pas le comportement réel des utilisateurs.
Des tests internes menés par Google montrent également que, lorsqu’il fonctionne indépendamment du cadre de recherche Google, Gemini 3 produit jusqu’à 28 % de sorties factuellement erronées. Google insiste toutefois sur le fait que « AI Overviews » s’appuie sur le système de classement de recherche pour améliorer sa précision, ce qui lui permet d’obtenir de meilleurs résultats que le modèle seul.
Toutefois, comme le souligne judicieusement PCMag, il y a là un paradoxe logique : si votre argument principal pour contester un rapport pointant l’imprécision de votre IA est que ce rapport lui-même utilise une IA potentiellement imprécise, cela ne renforce guère la confiance des utilisateurs dans la fiabilité de votre produit.
Bienvenue dans la communauté officielle TechFlow
Groupe Telegram :https://t.me/TechFlowDaily
Compte Twitter officiel :https://x.com/TechFlowPost
Compte Twitter anglais :https://x.com/BlockFlow_News














