
Hàng chục triệu lỗi mỗi giờ: Điều tra phơi bày “ảo giác về độ chính xác” trong công cụ tìm kiếm AI của Google
Tuyển chọn TechFlowTuyển chọn TechFlow

Hàng chục triệu lỗi mỗi giờ: Điều tra phơi bày “ảo giác về độ chính xác” trong công cụ tìm kiếm AI của Google
Ngay cả khi câu trả lời đúng, hơn một nửa các liên kết tham khảo cũng không đủ để hỗ trợ kết luận của nó.
Tác giả: Claude, TechFlow
Giới thiệu của TechFlow: Theo kết quả thử nghiệm mới nhất do The New York Times phối hợp cùng công ty khởi nghiệp AI Oumi thực hiện, độ chính xác của tính năng Tóm tắt AI (AI Overviews) trong công cụ tìm kiếm Google đạt khoảng 91%. Tuy nhiên, xét trên quy mô 5 nghìn tỷ lượt tìm kiếm mỗi năm của Google, điều này đồng nghĩa với việc hàng chục triệu câu trả lời sai được tạo ra mỗi giờ. Thêm vào đó, ngay cả khi câu trả lời đúng, hơn một nửa các liên kết tham khảo đính kèm cũng không đủ cơ sở để hỗ trợ kết luận đó.
Google đang cung cấp thông tin sai lệch cho người dùng ở quy mô chưa từng có — và phần lớn người dùng hoàn toàn không hay biết.
Theo báo cáo của The New York Times, công ty khởi nghiệp AI Oumi được ủy quyền tiến hành đánh giá độ chính xác của tính năng AI Overviews của Google bằng bộ kiểm tra tiêu chuẩn ngành SimpleQA do OpenAI phát triển. Bài kiểm tra bao gồm 4.326 truy vấn tìm kiếm, được thực hiện hai lần: lần đầu vào tháng 10 năm ngoái (sử dụng Gemini 2), và lần thứ hai vào tháng 2 năm nay (sau khi nâng cấp lên Gemini 3). Kết quả cho thấy độ chính xác của Gemini 2 đạt khoảng 85%, còn Gemini 3 tăng lên 91%.
91% nghe có vẻ khá tốt — nhưng khi đặt trong bối cảnh quy mô khổng lồ của Google thì lại là chuyện khác. Với khoảng 5 nghìn tỷ lượt tìm kiếm mỗi năm, tỷ lệ sai sót 9% tương đương với hơn 57 triệu câu trả lời không chính xác được tạo ra mỗi giờ — gần một triệu câu mỗi phút.
Câu trả lời đúng, nhưng nguồn dẫn lại sai
Một vấn đề đáng lo ngại hơn cả độ chính xác là hiện tượng “mất neo” trong trích dẫn nguồn.
Dữ liệu từ Oumi cho thấy, trong thời kỳ Gemini 2, 37% các câu trả lời đúng tồn tại tình trạng “trích dẫn thiếu cơ sở”: tức là các liên kết đi kèm tóm tắt AI không thực sự hỗ trợ thông tin được đưa ra. Khi nâng cấp lên Gemini 3, tỷ lệ này không giảm mà còn tăng vọt lên 56%. Nói cách khác, mô hình ngày càng giỏi hơn trong việc đưa ra câu trả lời đúng — nhưng lại ngày càng kém hơn trong việc “nộp bài”, tức là cung cấp bằng chứng đáng tin cậy cho câu trả lời đó.
Ông Manos Koukoumidis, CEO của Oumi, đặt câu hỏi trực diện vào trọng tâm vấn đề: «Ngay cả khi câu trả lời đúng, làm sao bạn biết nó đúng? Và làm sao bạn kiểm chứng được?»
Tình trạng trích dẫn nguồn chất lượng thấp khiến vấn đề trở nên trầm trọng hơn. Oumi phát hiện Facebook và Reddit lần lượt là nguồn tham khảo đứng thứ hai và thứ tư trong các tóm tắt AI. Trong các câu trả lời không chính xác, tần suất xuất hiện Facebook lên tới 7%, cao hơn mức 5% trong các câu trả lời chính xác.
Một bài báo giả của phóng viên BBC “lây nhiễm” thành công chỉ trong 24 giờ
Một khuyết điểm nghiêm trọng khác của AI Overviews là khả năng bị thao túng rất cao.
Một phóng viên của BBC đã tiến hành thử nghiệm bằng cách đăng một bài viết giả mạo được dựng sẵn. Chưa đầy 24 giờ sau, tóm tắt AI của Google đã trình bày những thông tin sai lệch trong bài viết đó như thể đó là sự thật.
Điều này hàm ý rằng bất kỳ ai hiểu rõ cách vận hành của hệ thống đều có thể “lây nhiễm” kết quả tìm kiếm AI bằng cách đăng tải nội dung sai lệch và đẩy mạnh lưu lượng truy cập vào nội dung đó. Phát ngôn viên của Google, ông Ned Adriance, phản hồi rằng chức năng tìm kiếm AI được xây dựng dựa trên cùng cơ chế xếp hạng và bảo mật dùng để lọc spam, đồng thời cho rằng «phần lớn các ví dụ trong thử nghiệm đều là những truy vấn phi thực tế, vốn không phản ánh đúng hành vi tìm kiếm thực tế của người dùng».
Google bác bỏ: Chính bản thân bài kiểm tra đã có vấn đề
Google đã nêu ra nhiều điểm nghi vấn đối với nghiên cứu của Oumi. Phát ngôn viên Google khẳng định nghiên cứu này «có những lỗ hổng nghiêm trọng», với các lý do bao gồm: bộ kiểm tra SimpleQA vốn đã chứa những thông tin không chính xác; Oumi sử dụng mô hình AI nội bộ HallOumi để đánh giá hiệu năng của một mô hình AI khác — điều này có thể gây thêm sai số; nội dung kiểm tra không phản ánh đúng hành vi tìm kiếm thực tế của người dùng.
Các bài kiểm tra nội bộ của Google cũng cho thấy, khi hoạt động độc lập ngoài khuôn khổ tìm kiếm Google, Gemini 3 tạo ra đến 28% đầu ra sai lệch. Tuy nhiên, Google nhấn mạnh rằng AI Overviews tận dụng hệ thống xếp hạng tìm kiếm để nâng cao độ chính xác, nên hiệu năng của nó vượt trội hơn so với mô hình đơn thuần.
Tuy nhiên, như bình luận của PCMag đã chỉ ra, đây là một nghịch lý logic: nếu lập luận bào chữa của bạn là «báo cáo tố cáo độ không chính xác của AI chúng tôi cũng đã sử dụng một AI có thể không chính xác», thì điều đó khó lòng gia tăng niềm tin của người dùng vào độ chính xác sản phẩm của bạn.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News














