
30 tỷ bức ảnh từ Pokémon Go đang dạy robot giao hàng cách định hướng
Tuyển chọn TechFlowTuyển chọn TechFlow

30 tỷ bức ảnh từ Pokémon Go đang dạy robot giao hàng cách định hướng
Từ việc bắt Pikachu đến giao bánh pizza, đây có thể là một trong những lộ trình thương mại hóa bất ngờ nhất của dữ liệu cộng đồng.
Tác giả: Will Douglas Heaven
Biên dịch: TechFlow
Giới thiệu của TechFlow: Niantic đã biến 30 tỷ bức ảnh chụp các thành phố do người chơi Pokémon Go chụp thành một mô hình kinh doanh mới. Công ty con chuyên về AI của Niantic – Niantic Spatial – sử dụng dữ liệu này để huấn luyện một hệ thống định vị thị giác (Visual Positioning System), đạt độ chính xác ở mức centimet, vượt xa hiệu suất của GPS trong các “hẻm núi đô thị”. Khách hàng lớn đầu tiên của hệ thống là công ty robot giao đồ ăn Coco Robotics. Từ việc bắt Pikachu đến giao bánh pizza – đây có thể là một trong những lộ trình thương mại hóa dữ liệu cộng đồng bất ngờ nhất.
Toàn văn như sau:
Pokémon Go là trò chơi thực tế tăng cường (AR) đầu tiên trên thế giới đạt tầm vóc hiện tượng. Ra mắt năm 2016 bởi Niantic – công ty con của Google – trò chơi này kết hợp IP Pokémon với cơ chế AR và nhanh chóng lan rộng toàn cầu. Từ Chicago, Oslo cho đến đảo Enoshima, người chơi đổ xô ra đường phố, háo hức săn lùng một chú Jigglypuff, Squirtle, hoặc (nếu may mắn cực kỳ) một con Galarian Zapdos siêu hiếm – những sinh vật này lơ lửng ngay trên thế giới thực, chỉ cách tay bạn một chút xíu.
Nói một cách đơn giản, điều này đồng nghĩa với việc hàng trăm triệu người cầm điện thoại chụp ảnh vô số tòa nhà. “Năm trăm triệu người cài đặt ứng dụng này trong vòng 60 ngày”, Brian McClendon – Giám đốc Công nghệ (CTO) của Niantic Spatial – chia sẻ. Niantic Spatial là công ty AI được tách ra từ Niantic vào tháng 5 năm ngoái. Theo số liệu từ Scopely – công ty trò chơi đã mua lại Pokémon Go từ tay Niantic cùng thời điểm đó – trò chơi này vẫn duy trì hơn 100 triệu người chơi hoạt động trong năm 2024, tức là đã tròn 8 năm kể từ ngày ra mắt.
Hiện tại, Niantic Spatial đang khai thác kho dữ liệu cộng đồng vô tiền khoáng hậu này – gồm hàng tỷ bức ảnh chụp các địa danh đô thị do hàng trăm triệu người chơi Pokémon Go trên toàn thế giới chụp bằng điện thoại, kèm theo nhãn vị trí siêu chính xác – nhằm xây dựng một “mô hình thế giới” (World Model). Đây là một hướng công nghệ nóng hổi hiện nay, với mục tiêu gắn kết trí tuệ của các mô hình ngôn ngữ lớn (LLM) vào môi trường thế giới thực.
Sản phẩm mới nhất của công ty là một mô hình có khả năng xác định vị trí bạn trên bản đồ chính xác tới vài centimet chỉ từ vài bức ảnh chụp nhanh một tòa nhà hoặc một địa danh nào đó. Mục tiêu của họ là hỗ trợ robot di chuyển chính xác hơn tại những khu vực mà GPS không đáng tin cậy.
Để kiểm chứng quy mô lớn đầu tiên đối với công nghệ này, Niantic Spatial vừa ký kết hợp tác với Coco Robotics. Coco là một công ty khởi nghiệp triển khai robot giao hàng “chặng cuối” tại nhiều thành phố ở Mỹ và châu Âu. “Mọi người đều nghĩ rằng AR chính là tương lai, và kính AR sắp xuất hiện”, McClendon nói, “nhưng thực tế, robot lại trở thành người dùng đầu tiên.”
Từ Pikachu đến giao bánh pizza
Coco Robotics đã triển khai khoảng 1.000 robot cỡ chiếc va li tại Los Angeles, Chicago, Jersey City, Miami và Helsinki, mỗi chiếc có thể chở tối đa 8 chiếc bánh pizza cỡ lớn hoặc 4 túi tạp hóa. Theo CEO Zach Rash, những robot này đã thực hiện hơn 500.000 lượt giao hàng và tích lũy hàng triệu dặm di chuyển trong mọi điều kiện thời tiết.
Tuy nhiên, để cạnh tranh với các tài xế giao hàng bằng xe đạp hay xe máy, robot của Coco (di chuyển trên vỉa hè với tốc độ khoảng 5 dặm/giờ) phải đảm bảo độ tin cậy cao. “Cách làm tốt nhất của chúng tôi là đến đúng giờ – đúng như thời điểm đã thông báo với bạn”, Rash nói. Điều đó đồng nghĩa với việc robot không được phép đi lạc.
Vấn đề mà Coco gặp phải là không thể phụ thuộc vào GPS. Trong các khu đô thị, tín hiệu vô tuyến phản xạ giữa các tòa nhà, gây nhiễu lẫn nhau khiến tín hiệu GPS trở nên rất yếu. “Chúng tôi thường giao hàng ở những khu vực đông đúc có nhiều tòa nhà cao tầng, hầm ngầm và cầu vượt – nơi GPS gần như hoàn toàn vô dụng”, Rash chia sẻ.
“‘Hẻm núi đô thị’ là nơi GPS hoạt động tệ nhất trên toàn thế giới”, McClendon nhận định. “Bạn nhìn chấm xanh trên điện thoại – nó thường lệch tới 50 mét, thậm chí đưa bạn sang hẳn một khu phố khác, một hướng khác, hoặc sang hẳn bên kia đường.” Đây chính là vấn đề mà Niantic Spatial muốn giải quyết.
Trong vài năm qua, Niantic Spatial đã tập trung xử lý dữ liệu do người chơi Pokémon Go và Ingress (trò chơi AR trên điện thoại do Niantic phát hành năm 2013, tiền thân của Pokémon Go) tạo ra, nhằm xây dựng một hệ thống định vị thị giác – xác định vị trí bạn dựa trên những gì bạn nhìn thấy. “Việc khiến Pikachu chạy thật tự nhiên trên đường phố và giúp robot của Coco di chuyển an toàn, chính xác xuyên qua thành phố – xét về bản chất – là cùng một bài toán”, John Hanke – CEO của Niantic Spatial – khẳng định.
“Định vị thị giác không phải là công nghệ mới”, Konrad Wenzel từ công ty phân tích bản đồ số và không gian địa lý ESRI nhận xét, “nhưng rõ ràng, càng có nhiều camera ngoài thực tế thì công nghệ này càng hiệu quả hơn.”
Niantic Spatial đã huấn luyện mô hình của mình bằng 30 tỷ bức ảnh được chụp trong môi trường đô thị. Những bức ảnh này đặc biệt tập trung dày đặc quanh các “điểm nóng” – những địa điểm trọng yếu trong các trò chơi của Niantic mà người chơi được khuyến khích ghé thăm, ví dụ như các Đấu trường (Gym) trong Pokémon Go. “Chúng tôi có hơn 1 triệu địa điểm trên toàn thế giới, đủ để xác định vị trí của bạn một cách chính xác”, McClendon cho biết, “chúng tôi biết chính xác bạn đang đứng ở đâu, sai số chỉ vài centimet. Quan trọng hơn cả, chúng tôi còn biết bạn đang nhìn về hướng nào.”
Hệ quả là, tại mỗi một trong số 1 triệu địa điểm nói trên, Niantic Spatial đều sở hữu hàng ngàn bức ảnh được chụp từ vị trí gần như giống nhau nhưng dưới các góc độ, thời điểm và điều kiện thời tiết khác nhau. Mỗi bức ảnh đều đi kèm bộ dữ liệu siêu chi tiết: vị trí không gian chính xác của điện thoại lúc chụp, hướng quay, tư thế thiết bị, trạng thái chuyển động (có đang di chuyển hay không), vận tốc và hướng di chuyển…
Công ty sử dụng tập dữ liệu này để huấn luyện mô hình, giúp nó dự đoán vị trí chính xác của mình chỉ dựa trên những gì nó “thấy” – ngay cả khi ở ngoài phạm vi 1 triệu điểm nóng nói trên, nơi ảnh và dữ liệu vị trí tương đối khan hiếm.
Bên cạnh GPS, robot của Coco (trang bị 4 camera) giờ đây còn sử dụng mô hình này để xác định vị trí hiện tại và đích đến. Các camera được lắp đặt ở độ cao ngang hông và hướng ra mọi phía – góc nhìn có phần khác biệt so với người chơi Pokémon Go, nhưng Rash khẳng định việc điều chỉnh dữ liệu không hề phức tạp.
Các đối thủ cũng đang áp dụng hệ thống định vị thị giác. Chẳng hạn, Starship Technologies – công ty robot giao hàng có trụ sở tại Estonia, thành lập năm 2014 – tuyên bố robot của họ xây dựng bản đồ 3D về môi trường xung quanh bằng cảm biến, đánh dấu các cạnh tòa nhà và vị trí cột đèn.
Nhưng Rash đặt cược vào công nghệ của Niantic Spatial để mang lại lợi thế cho Coco. Ông tin rằng công nghệ này sẽ giúp robot dừng chính xác tại đúng vị trí lấy hàng trước cửa nhà hàng, không cản trở ai, đồng thời dừng sát trước cửa nhà khách hàng thay vì cách vài bước như từng xảy ra trong quá khứ.
Đại bùng nổ kỷ Cambri của robot
Theo Hanke, ban đầu Niantic Spatial phát triển hệ thống định vị thị giác nhằm phục vụ thực tế tăng cường. “Nếu bạn đeo kính AR và mong muốn thế giới ảo khóa chặt vào hướng nhìn của bạn, bạn cần một phương pháp nào đó để thực hiện điều đó. Nhưng hiện nay, chúng ta đang chứng kiến đại bùng nổ kỷ Cambri trong lĩnh vực robot.”
Một số robot cần chia sẻ không gian với con người, chẳng hạn như tại công trường xây dựng hay trên vỉa hè. “Nếu robot muốn hòa nhập vào những môi trường này mà không làm phiền con người, chúng buộc phải sở hữu khả năng hiểu không gian tương tự như con người”, Hanke giải thích. “Khi robot bị đẩy, va chạm, chúng tôi có thể giúp nó xác định lại chính xác vị trí của mình.”
Hợp tác với Coco Robotics chỉ là khởi đầu. Hanke cho biết những thành phần đầu tiên mà Niantic Spatial đang xây dựng chính là những viên gạch nền tảng cho cái ông gọi là “bản đồ sống” (Living Map): một mô phỏng thế giới ảo siêu chính xác, liên tục cập nhật theo sự thay đổi của thế giới thực. Khi robot của Coco và các công ty khác di chuyển khắp nơi trên thế giới, chúng sẽ cung cấp nguồn dữ liệu bản đồ mới, giúp bản sao kỹ thuật số của thế giới ngày càng tinh tế hơn.
Theo Hanke và McClendon, bản đồ không chỉ ngày càng chi tiết hơn mà còn ngày càng được các máy móc sử dụng nhiều hơn. Điều này đang thay đổi chức năng của bản đồ. Trong suốt chiều dài lịch sử, bản đồ luôn giúp con người xác định vị trí của chính mình. Từ bản đồ 2D, qua 3D rồi tới 4D (hãy tưởng tượng các mô hình mô phỏng thời gian thực như “song sinh kỹ thuật số”), nguyên lý cơ bản vẫn không thay đổi: một điểm trên bản đồ tương ứng với một điểm trong không gian hoặc thời gian.
Tuy nhiên, bản đồ dành riêng cho máy móc có thể cần được thiết kế giống một cuốn cẩm nang du lịch, chứa đầy những thông tin mà con người coi là hiển nhiên. Niantic Spatial và các công ty như ESRI đang cố gắng bổ sung mô tả vào bản đồ để thông báo cho máy móc biết thực tế nó đang thấy điều gì, đồng thời gán cho mỗi đối tượng một loạt thuộc tính. “Nhiệm vụ của thời đại này là xây dựng những mô tả thế giới hữu ích dành riêng cho máy móc”, Hanke khẳng định. “Dữ liệu mà chúng ta đang sở hữu là một điểm khởi đầu tuyệt vời để hiểu cách thức tổ chức và kết nối của thế giới vận hành.”
Hiện nay, “mô hình thế giới” đang rất “hot”, và Niantic Spatial hoàn toàn ý thức rõ điều này. Các mô hình ngôn ngữ lớn (LLM) trông như thể hiểu biết mọi thứ, nhưng lại gần như thiếu hoàn toàn kiến thức phổ thông khi diễn giải và tương tác với môi trường đời thường. Chính “mô hình thế giới” được thiết kế để giải quyết vấn đề này. Một số công ty như Google DeepMind và World Labs đang phát triển các mô hình có khả năng tạo ra tức thời những thế giới ảo tưởng, rồi sử dụng chúng làm sân chơi huấn luyện cho các tác nhân AI (AI agents).
Niantic Spatial khẳng định họ tiếp cận vấn đề này từ một góc nhìn khác. “Khi bạn xây dựng bản đồ đủ chi tiết, cuối cùng bạn sẽ nắm bắt được mọi thứ”, McClendon nói. “Chúng tôi chưa đạt tới mức đó, nhưng đó chính là đích đến. Hiện giờ tôi đang tập trung hết sức vào việc tái tạo lại thế giới thực.”
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News










