Les 30 milliards de photos de Pokémon Go servent actuellement à enseigner aux robots de livraison comment se repérer.

Du capture de Pikachu à la livraison de pizzas, il s’agit probablement l’un des chemins commerciaux les plus inattendus pour les données issues du crowdsourcing.

Auteur : Will Douglas Heaven

Traduction : TechFlow

Introduction de TechFlow : Niantic a transformé les 30 milliards de photos urbaines prises par les joueurs de Pokémon Go en une nouvelle activité commerciale. Sa filiale spécialisée en intelligence artificielle, Niantic Spatial, utilise ces données pour entraîner un système de localisation visuelle capable d’atteindre une précision centimétrique — bien supérieure aux performances du GPS dans les « canyons urbains ». Son premier grand client est la société de robots livreur Coco Robotics. De la capture de Pikachu à la livraison de pizzas, il s’agit peut-être l’un des chemins de monétisation les plus inattendus jamais empruntés par des données collectées de manière participative.

Texte intégral :

Pokémon Go est le premier jeu de réalité augmentée (RA) à avoir connu un succès planétaire. Lancé en 2016 par Niantic, alors filiale de Google, ce jeu, qui superpose des éléments de RA sur l’univers de Pokémon, a rapidement conquis le monde entier. Des rues de Chicago à celles d’Oslo ou de l’île d’Enoshima, les joueurs se sont rués à l’extérieur, espérant capturer un Rondoudou, un Carapuce, ou, si leur chance était exceptionnelle, un rare Oiseleur de Galar flottant juste au-dessus du monde réel — hors de portée de leurs mains.

Autrement dit, des centaines de millions de personnes ont photographié des centaines de milliers de bâtiments avec leur smartphone. « Cinq cents millions de personnes ont téléchargé cette application en soixante jours », explique Brian McClendon, directeur technique (CTO) de Niantic Spatial, la société spécialisée en IA que Niantic a scindée en mai dernier. Selon Scopely — la société de jeux vidéo ayant acquis Pokémon Go auprès de Niantic — ce jeu comptait encore, en 2024, plus de 100 millions d’utilisateurs actifs, huit ans après son lancement.

Aujourd’hui, Niantic Spatial exploite ce trésor inégalé de données collectées de manière participative : des photos de repères urbains prises par des centaines de millions de joueurs de Pokémon Go à travers le monde, toutes étiquetées avec une précision géographique extrême, afin de construire un « modèle du monde » (World Model). Ce domaine technologique connaît actuellement un essor considérable, visant à ancrer l’intelligence des grands modèles linguistiques (LLM) dans l’environnement physique réel.

Le tout dernier produit de la société est un modèle capable, à partir de quelques clichés d’un bâtiment ou d’un autre repère, de déterminer votre position sur une carte avec une précision de quelques centimètres. L’objectif est d’aider les robots à naviguer avec davantage de fiabilité là où le GPS est peu fiable.

Pour sa première validation à grande échelle, Niantic Spatial vient de conclure un partenariat avec Coco Robotics. Cette start-up déploie des robots de livraison « dernière mile » dans plusieurs villes américaines et européennes. « Tout le monde pense que la RA est l’avenir, que les lunettes de RA arrivent », déclare McClendon. « Or ce sont les robots qui sont devenus les premiers utilisateurs. »

De Pikachu à la pizza

Coco Robotics a déployé environ 1 000 robots de la taille d’une valise à Los Angeles, Chicago, Jersey City, Miami et Helsinki. Chacun peut transporter jusqu’à huit grandes pizzas ou quatre sacs de courses. Selon le PDG Zach Rash, ces robots ont déjà effectué plus de 500 000 livraisons et parcouru des millions de miles dans toutes les conditions météorologiques.

Mais pour rivaliser avec les livreurs humains, les robots de Coco — qui circulent sur les trottoirs à environ 8 km/h — doivent faire preuve d’une fiabilité absolue. « Notre meilleure façon de travailler consiste à arriver exactement à l’heure indiquée », affirme Rash. Autrement dit, ils ne doivent pas se perdre.

Le problème auquel Coco est confronté est qu’elle ne peut pas compter sur le GPS. En milieu urbain, les signaux radio rebondissent entre les immeubles et interfèrent les uns avec les autres, rendant le signal GPS très faible. « Nous effectuons beaucoup de livraisons dans des zones densément bâties comportant des gratte-ciels, des tunnels souterrains et des autoroutes surélevées — des endroits où le GPS fonctionne presque jamais », précise Rash.

« Les canyons urbains constituent l’endroit où le GPS fonctionne le moins bien au monde », ajoute McClendon. « Observez le petit point bleu sur votre téléphone : il dérive souvent de 50 mètres, vous plaçant carrément dans un autre quartier, dans une autre direction, voire de l’autre côté de la rue. » C’est précisément ce problème que Niantic Spatial cherche à résoudre.

Ces dernières années, Niantic Spatial a organisé les données générées par les joueurs de Pokémon Go et d’Ingress — le précédent jeu mobile de RA lancé par Niantic en 2013 — afin de développer un système de localisation visuelle (Visual Positioning System), c’est-à-dire un système qui détermine votre position à partir de ce que vous voyez. « Faire courir Pikachu de façon réaliste dans la rue et permettre aux robots de Coco de traverser la ville en toute sécurité et avec une grande précision relèvent fondamentalement du même défi », souligne John Hanke, PDG de Niantic Spatial.

« La localisation visuelle n’est pas une technologie nouvelle », note Konrad Wenzel, expert en cartographie numérique et analyse géospatiale chez ESRI. « Mais il est évident que plus il y a de caméras à l’extérieur, plus elle devient efficace. »

Niantic Spatial a entraîné son modèle à l’aide de 30 milliards d’images prises dans des environnements urbains. Ces images sont particulièrement concentrées autour de « points chauds » — des lieux stratégiques incitant les joueurs à s’y rendre dans les jeux de Niantic, comme les arènes de combat Pokémon. « Nous disposons de plus d’un million de points à travers le monde où nous pouvons déterminer votre position avec une précision de quelques centimètres », indique McClendon. « Nous savons non seulement exactement où vous vous trouvez, mais aussi dans quelle direction vous regardez. »

Le résultat est que, pour chacun de ces un million de points, Niantic Spatial dispose de milliers de photos prises depuis des positions quasi identiques, mais sous différents angles, à divers moments de la journée et dans des conditions météorologiques variées. Chaque image est accompagnée de métadonnées détaillées : position spatiale exacte du smartphone, orientation, posture, statut de déplacement (mobile ou fixe), vitesse et direction, etc.

La société utilise cet ensemble de données pour entraîner son modèle afin qu’il puisse déterminer avec précision sa propre position uniquement à partir de ce qu’il « voit » — y compris dans des zones situées en dehors de ces un million de points chauds, où les données d’image et de localisation sont relativement rares.

Outre le GPS, les robots de Coco — équipés de quatre caméras — utilisent désormais ce modèle pour déterminer leur position et leur destination. Leur caméra, installée à hauteur de hanche, capte simultanément tous les angles ; leur champ de vision diffère donc légèrement de celui des joueurs de Pokémon Go, mais, selon Rash, l’adaptation des données est simple.

D’autres concurrents utilisent également des systèmes de localisation visuelle. Par exemple, Starship Technologies, une société estonienne de robots de livraison fondée en 2014, affirme que ses robots construisent une carte 3D de leur environnement à l’aide de capteurs, en y repérant notamment les contours des bâtiments et la position des lampadaires.

Mais Rash mise sur la technologie de Niantic Spatial pour offrir à Coco un avantage concurrentiel. Il estime ainsi que ses robots pourront s’arrêter avec précision au bon endroit devant le restaurant, sans gêner personne, et livrer directement devant la porte du client — plutôt que de s’arrêter à quelques pas de celle-ci, comme cela arrivait parfois auparavant.

L’explosion cambrienne des robots

Lorsque Niantic Spatial a commencé à développer son système de localisation visuelle, son objectif initial était de l’appliquer à la réalité augmentée, explique Hanke. « Si vous portez des lunettes de RA, vous souhaitez que le monde virtuel reste verrouillé sur votre champ de vision : il faut donc un moyen de le garantir. Or, nous assistons aujourd’hui à une explosion cambrienne dans le domaine des robots. »

Certains robots doivent partager l’espace avec les humains, par exemple sur les chantiers de construction ou sur les trottoirs. « Pour s’intégrer à ces environnements sans déranger les humains, les robots doivent acquérir une capacité de compréhension spatiale similaire à celle des êtres humains », poursuit Hanke. « Et lorsque les robots sont bousculés ou heurtés, nous pouvons les aider à retrouver instantanément leur position exacte. »

Le partenariat avec Coco Robotics n’est que le point de départ. Hanke explique que Niantic Spatial construit les premiers composants de ce qu’il appelle une « carte vivante » (Living Map) : une simulation virtuelle du monde d’une précision extrême, constamment mise à jour pour refléter les changements du monde réel. À mesure que les robots de Coco et d’autres entreprises circuleront à travers le monde, ils alimenteront cette carte avec de nouvelles données, rendant progressivement la version numérique du monde toujours plus détaillée.

Pour Hanke et McClendon, les cartes ne deviennent pas seulement plus précises, mais elles sont de plus en plus utilisées par des machines. Cela transforme radicalement leur finalité. Depuis longtemps, les cartes aident les humains à se situer. Du 2D au 3D, puis au 4D (pensez aux jumeaux numériques, ces simulations en temps réel), le principe fondamental demeure inchangé : chaque point sur la carte correspond à un point dans l’espace ou dans le temps.

Toutefois, les cartes destinées aux machines devront probablement ressembler davantage à des guides touristiques, riches en informations que les humains tiennent pour acquises. Ainsi, Niantic Spatial et des entreprises comme ESRI cherchent à enrichir les cartes de descriptions indiquant aux machines ce qu’elles voient réellement, chaque objet étant doté d’une série d’attributs. « La tâche de notre époque consiste à construire pour les machines des descriptions utiles du monde », affirme Hanke. « Les données dont nous disposons constituent un excellent point de départ pour comprendre comment fonctionne l’organisation interconnectée du monde. »

Les modèles du monde connaissent actuellement un engouement considérable, et Niantic Spatial en est parfaitement consciente. Bien que les grands modèles linguistiques (LLM) semblent tout savoir, ils manquent presque totalement de bon sens lorsqu’il s’agit d’interpréter et d’interagir avec l’environnement quotidien. C’est précisément ce problème que les modèles du monde cherchent à résoudre. Certaines entreprises, telles que Google DeepMind et World Labs, développent des modèles capables de générer instantanément des mondes virtuels imaginaires, qu’elles utilisent ensuite comme terrain d’entraînement pour des agents intelligents.

Niantic Spatial aborde ce défi sous un angle différent. « Si vous poussez la précision cartographique à l’extrême, vous finissez par capturer tout », déclare McClendon. « Nous n’y sommes pas encore parvenus, mais c’est là où nous voulons aller. Pour l’instant, je me concentre intensément sur la reconstruction du monde réel. »

Du capture de Pikachu à la livraison de pizzas, il s’agit probablement l’un des chemins commerciaux les plus inattendus pour les données issues du crowdsourcing.

Texte intégral :

De Pikachu à la pizza

L’explosion cambrienne des robots

Texte intégral :

De Pikachu à la pizza

L’explosion cambrienne des robots

Articles connexes

TechFlow : Bulletin d’informations – ChatGPT aide un mathématicien amateur à résoudre un problème vieux de 60 ans ; la CFTC poursuit Coinbase et Gemini devant les tribunaux de l’État de New York

TechFlow : Bulletin d’information – La capitalisation boursière de NVIDIA retrouve les 5 000 milliards de dollars, tandis que les ETF spot sur le bitcoin enregistrent neuf jours consécutifs d’entrées nettes.

TechFlow Bureau des renseignements : La publication et l’ouverture du code source de DeepSeek V4 déclenchent une vague d’enthousiasme dans la communauté ; les actions d’Intel grimpent de 20 % après la clôture.

Marcher aux côtés des sages : quels signaux importants la soirée privée réservée aux grands clients de HTX DAO a-t-elle envoyés ?

Aave est en difficulté : toute l’industrie contribue financièrement.

Après que l’IA a voté elle-même, le seul gagnant restant est l’USDC.

De Robinhood à Polymarket, l’ère de la plateforme unique intégrant tous les actifs est-elle enfin arrivée ?

Les actions de sociétés spécialisées dans les puces électroniques enregistrent leur meilleure performance depuis l’an 2000, tandis que les actions de sociétés SaaS chutent à un plus bas annuel : deux mondes distincts sous la ligne de démarcation de l’IA

Tether gèle 344 millions de dollars américains en USDT dans le cadre des sanctions américaines : le « droit de gel immédiat » des stablecoins suscite à nouveau la controverse

Un soldat américain arrêté après avoir parié sur la chute de Maduro et empoché 400 000 dollars : première affaire d’initié sur Polymarket

Contenu de l’article

TechFlow Sélection

Les 30 milliards de photos de Pokémon Go servent actuellement à enseigner aux robots de livraison comment se repérer.

TechFlow SélectionTechFlow Sélection

Les 30 milliards de photos de Pokémon Go servent actuellement à enseigner aux robots de livraison comment se repérer.