
Google tung ra "vũ khí" đa phương thức Gemini, liệu thực sự có thể áp đảo GPT-4?
Tuyển chọn TechFlowTuyển chọn TechFlow

Google tung ra "vũ khí" đa phương thức Gemini, liệu thực sự có thể áp đảo GPT-4?
Gemini sẽ là đối thủ cạnh tranh mạnh mẽ với GPT-4 trong việc hiểu dữ liệu phức tạp và thực hiện các tác vụ nâng cao.
Tác giả: Mộc Mục
"Lớn nhất", "mạnh nhất", "tốt nhất", "hiệu quả nhất" – Google đã gắn cho mô hình đa phương thức mới Gemini được ra mắt ngày 7 tháng 12 hàng loạt từ “tối ưu”, thể hiện rõ mong muốn so sánh với GPT-4 của OpenAI.
Gemini được chia thành ba phiên bản Ultra, Pro và Nano, không chỉ tuyên bố đạt điểm cao trong các “kỳ thi AI” mà còn được thể hiện trong video giới thiệu như một “công cụ siêu cấp” có khả năng “nghe, nói, đọc, viết” toàn diện.
Theo thông tin chính thức, Gemini Ultra là phiên bản mạnh mẽ nhất, sở hữu khả năng đa phương thức, tính chuyên môn và độ chính xác cao. Không chỉ xử lý đầu vào và đầu ra dưới dạng văn bản và giọng nói, nó còn có thể chấm bài tập toán, hướng dẫn vận động viên về tư thế và kỹ thuật, thực hiện các nhiệm vụ phức tạp như vẽ biểu đồ, lập trình, thậm chí "vượt qua chuyên gia con người" trong bài kiểm tra MMLU (Ngôn ngữ Hiểu Biết Đa Nhiệm Vụ Quy Mô Lớn).
Tuy nhiên, hiện tại người dùng phổ thông chỉ có thể trải nghiệm phiên bản Gemini Pro – theo định vị chính thức là “mô hình tối ưu cho mở rộng trên nhiều nhiệm vụ”, đã được tích hợp vào chatbot Bard trước đó của Google. Phiên bản Gemini Nano – “mô hình hiệu quả nhất để thực hiện tác vụ trên thiết bị” – sẽ được đưa vào điện thoại thông minh Pixel8 Pro của Google. Trong khi đó, phiên bản Gemini Ultra – “lớn nhất và mạnh nhất, phù hợp với nhiệm vụ cực kỳ phức tạp” – dự kiến sẽ được cung cấp cho nhà phát triển và khách hàng doanh nghiệp vào đầu năm sau.
Vậy, liệu Gemini có thực sự mạnh hơn GPT-4?
Một số người dùng phát hiện điểm số “thi cử” mà Google công bố cho Gemini Ultra sử dụng bài kiểm tra nội bộ (phương pháp thử nghiệm) của chính họ; Bloomberg cũng chỉ ra rằng video demo Gemini không phải dạng trực tiếp, và cộng đồng mạng cho rằng video này có dấu hiệu chỉnh sửa.
Thử nghiệm thực tế của "MetaVerse Daily Blast" về khả năng toán học của Bard – chatbot đã được tích hợp mô hình tinh chỉnh Gemini Pro – cho thấy Bard vẫn mắc lỗi hiểu sai các bài toán phức tạp, đặc biệt là trong nhận diện hình ảnh.
Google trình diễn khả năng “nghe, nói, đọc, viết” của Gemini
Gemini là mô hình trí tuệ nhân tạo quy mô lớn đa phương thức do Google xây dựng hoàn toàn từ đầu. Dù ra mắt muộn hơn GPT-4 khá lâu, nhưng được Google quảng bá là “mạnh nhất”, điểm nổi bật là khả năng đa phương thức của Gemini.
Nó có thể xử lý và phân tích đồng thời nhiều loại dữ liệu như văn bản, hình ảnh, âm thanh, video và mã nguồn. Điều đó có nghĩa là người dùng có thể nhập mọi dạng thông tin cho Gemini, và hệ thống này không chỉ hiểu được mà còn có thể phân tích, thậm chí xử lý tác vụ theo yêu cầu.
Hiện tại, Gemini đang ở phiên bản 1.0 và được chia theo quy mô thành Ultra, Pro và Nano. Phiên bản Ultra dành cho các nhiệm vụ cực kỳ phức tạp, Pro tập trung vào xử lý đa nhiệm, còn Nano hướng đến ứng dụng trên thiết bị di động. Ba phiên bản này được tối ưu hóa cho các tình huống khác nhau và thể hiện sức mạnh vượt trội trong nhiều bài kiểm tra chuẩn.
Video quảng cáo chính thức của Google cho thấy khả năng đa phương thức đáng kinh ngạc của Gemini, xem xong bạn chắc chắn sẽ phải trầm trồ.
Phía sau “siêu mô hình” Gemini Ultra là dữ liệu thử nghiệm do Google công bố. Trong 32 tiêu chuẩn học thuật thường dùng để đánh giá mô hình ngôn ngữ lớn (LLM), nó vượt trội hơn công nghệ hiện tại trong 30 tiêu chí.
Gemini Ultra tuyên bố đạt điểm 90,0% – trở thành mô hình đầu tiên vượt qua chuyên gia con người trong bài kiểm tra MMLU (Ngôn ngữ Hiểu Biết Đa Nhiệm Vụ Quy Mô Lớn). Bài kiểm tra này sử dụng tổ hợp 57 lĩnh vực như toán học, vật lý, lịch sử, luật pháp, y học và đạo đức để đánh giá kiến thức thế giới và khả năng giải quyết vấn đề. Gemini vượt trội hơn mức công nghệ hiện tại trong nhiều bài kiểm tra chuẩn, bao gồm cả văn bản và mã nguồn.
MMLU là bài kiểm tra đánh giá khả năng hiểu ngôn ngữ của mô hình lớn, bao gồm 57 nhiệm vụ trả lời câu hỏi trắc nghiệm liên quan đến kiến thức nhân loại, bao gồm toán học cơ bản, lịch sử Mỹ, khoa học máy tính, luật pháp... Độ khó trải dài từ trình độ trung học đến trình độ chuyên gia, là một trong những bài kiểm tra phổ biến nhất hiện nay về khả năng hiểu ngữ nghĩa của mô hình lớn.
Dựa trên kết quả thử nghiệm mà Google công bố, Gemini sẽ tạo nên sự cạnh tranh mạnh mẽ với GPT-4 trong việc hiểu dữ liệu phức tạp và thực hiện các nhiệm vụ nâng cao.

Google cho biết Gemini lần đầu vượt qua chuyên gia con người trong bài kiểm tra MMLU
Do được xây dựng ngay từ đầu trên nền tảng đào tạo đa phương thức, về lý thuyết Gemini Ultra có thể hiểu được mọi dạng thông tin như văn bản, hình ảnh, giọng nói, video, mã nguồn... điều này mở ra nhiều khả năng hơn cho ứng dụng và sử dụng AI.
Ví dụ, trong lĩnh vực giáo dục, nhờ kỹ năng suy luận đa phương thức của Gemini Ultra, những ghi chú viết tay lộn xộn có thể được hiểu, các bước giải sai của học sinh có thể được phát hiện, rồi đưa ra lời giải đúng cùng quá trình giải chi tiết. Như vậy, dù chưa thể thay thế giáo viên, ít nhất các thầy cô đã có một trợ lý AI siêu cấp.

Gemini có thể chấm bài tập học sinh
Trong việc hiểu và suy luận video, Gemini Ultra thậm chí thể hiện phẩm chất như một “huấn luyện viên bóng đá”, có thể phân tích động tác và lực tác động của vận động viên, đồng thời đưa ra gợi ý cải thiện cụ thể.

Gemini có thể hiểu nội dung video và đưa ra lời khuyên hướng dẫn cho vận động viên
Đối với các nhiệm vụ hiểu hình ảnh phức tạp, tạo mã, theo dõi chỉ dẫn, Gemini Ultra đều xử lý tốt. Khi nhập hình ảnh cùng nhắc nhở: “Tôi muốn bạn lấy hàm số được mô tả trong hình con góc trên bên trái, nhân nó với 1000, sau đó cộng vào hàm số được mô tả trong hình con dưới bên trái, tạo mã matplotlib cho biểu đồ kết quả duy nhất”, Gemini Ultra có thể hoàn hảo thực hiện nhiệm vụ nghịch đảo đồ họa để suy luận mã tạo biểu đồ, thực hiện thêm chuyển đổi toán học và tạo mã tương ứng.
Nhìn vào các ví dụ Google đưa ra, Gemini Ultra gần như là mô hình lớn “mạnh nhất hành tinh”. Điều khán giả mong chờ nhất là: khi nào chúng ta mới được dùng “siêu saiyajin” của làng mô hình lớn này?
Theo tiết lộ của Google, kể từ ngày 6 tháng 12, Bard sẽ cập nhật phiên bản tinh chỉnh của Gemini Pro, nhằm nâng cao khả năng suy luận, lập kế hoạch, hiểu biết… Đây là bản nâng cấp lớn nhất của Bard kể từ khi ra mắt.
Cần lưu ý rằng Bard tích hợp Gemini Pro hiện chỉ hỗ trợ tiếng Anh và có mặt tại hơn 170 quốc gia và khu vực, dự kiến sẽ mở rộng sang các phương thức khác, hỗ trợ thêm ngôn ngữ và khu vực trong tương lai gần. Nghĩa là người dùng Trung Quốc hiện tại chưa thể trải nghiệm đầy đủ Gemini Pro.
Gemini Nano sẽ được ứng dụng đầu tiên trên smartphone Pixel 8 Pro của Google, bắt đầu từ WhatsApp, và sẽ hỗ trợ thêm nhiều ứng dụng nhắn tin khác vào năm sau.
Trong vài tháng tới, Gemini cũng sẽ được tích hợp vào nhiều sản phẩm và dịch vụ khác của Google, bao gồm Search, Ads, Chrome và Duet AI. Điều đó có nghĩa là công cụ tìm kiếm của Google cũng sẽ được tích hợp khả năng của Gemini.
Còn đối với phiên bản “mạnh nhất” Gemini Ultra, người dùng phổ thông vẫn phải chờ thêm. Google cho biết họ đang tiến hành kiểm tra độ tin cậy và an toàn, đồng thời cần tinh chỉnh và cải thiện thêm thông qua học tăng cường phản hồi con người (RLHF) trước khi chính thức ra mắt.
Trong quá trình này, Gemini Ultra sẽ được cung cấp chọn lọc cho khách hàng, nhà phát triển, đối tác cũng như các chuyên gia an toàn và trách nhiệm để thử nghiệm sớm, thu thập phản hồi, sau đó mới mở cửa cho nhà phát triển và khách hàng doanh nghiệp vào đầu năm sau.
Bài kiểm tra MMLU của Ultra bị nghi ngờ là “đề thi Google”
Google trưng bày phiên bản mạnh nhất Gemini Ultra nhưng lại chậm trễ trong việc triển khai và sử dụng, cách làm này nhanh chóng gây nghi ngờ: Liệu nó thực sự mạnh hơn GPT-4?
Bloomberg đã lên tiếng “bóc phốt”, cho rằng mô hình của Google vẫn còn khoảng cách so với OpenAI, khả năng hiện tại chỉ dựa trên video demo – vốn là video đã được ghi sẵn chứ không phải trực tiếp, rất có thể là “gợi ý văn bản được tinh chỉnh kỹ lưỡng kết hợp với hình ảnh tĩnh”. Bloomberg cũng chỉ ra rằng câu trả lời của Gemini cần sự hỗ trợ từ thông tin bổ sung, và trong tương tác thực tế cần các gợi ý mang tính chất dẫn dắt rất mạnh.
Người xem video demo cũng cảm nhận rõ ràng dấu vết chỉnh sửa, cho rằng “khả năng mạnh mẽ có phần phóng đại”.
Hơn nữa, bài kiểm tra MMLU mà Google dùng để đánh giá Gemini Ultra bị người dùng phát hiện là “đề thi nội bộ” của chính họ. Trong bài kiểm tra trắc nghiệm 57 môn, Ultra đạt 90 điểm nhưng phía dưới rõ ràng ghi chú “CoT@32*” – đây là phương án đánh giá do Google tự điều chỉnh. Nếu áp dụng tiêu chuẩn giống như GPT-4, điểm số của nó chỉ là 83,7, thấp hơn cả GPT-4 với 86,4 điểm.

Gemini Ultra đạt điểm 90 trong phương án kiểm tra do Google điều chỉnh
Chuyện học thuật quá chuyên môn, may mắn là Google đã tích hợp Gemini vào Bard. Dù chỉ dùng phiên bản thấp cấp hơn là Pro thay vì Ultra, nhưng cũng tuyên bố có thể xử lý đa nhiệm – đây là cách dễ nhất để đại chúng trực tiếp kiểm tra Gemini.
"MetaVerse Daily Blast" đã chọn trực tiếp các bài toán để thử nghiệm, bởi ChatGPT vốn không giỏi toán, và toán học với đáp án duy nhất được OpenAI coi là nền tảng hướng tới AGI. Vậy hãy xem Bard tích hợp khả năng Gemini có thực sự giỏi toán hay không.
Chúng tôi đặt câu hỏi bằng tiếng Anh, câu 1 yêu cầu tính thể tích hình nón, câu 2 là một bài chứng minh hình học khó hơn.
Kết quả thử nghiệm cho thấy Gemini Pro có thể nhận diện chính xác hình ảnh và chữ trong ảnh, giải đúng các bài toán đơn giản, nhưng vẫn mắc lỗi rõ ràng khi xử lý bài toán phức tạp. Lỗi ở câu 2 rất rõ rệt: Bard sai ở bước thứ 2 khi chứng minh hai đường EG và AB vuông góc với nhau.

Bard tích hợp Gemini Pro vẫn chưa hoàn hảo khi giải toán
Liệu điều này xảy ra vì Bard dùng Gemini Pro nên chưa đủ mạnh? Vậy thì chúng ta chỉ còn cách chờ đợi phiên bản Ultra được tích hợp rồi thử nghiệm tiếp.
Gemini Nano được tích hợp vào điện thoại thông minh Pixel 8 Pro sẽ được ứng dụng trong hai chức năng: “Tóm tắt ghi âm” và “Phản hồi thông minh Gboard”.
Theo Google, ngay cả khi điện thoại không kết nối mạng, chức năng ghi âm vẫn có thể tạo bản tóm tắt cuộc gọi, phỏng vấn, thuyết trình... Trong khi chức năng phản hồi thông minh tương tự tin nhắn tự động sau khi tắt máy, Gemini Nano có thể nhận diện nội dung tin nhắn đến và tạo phản hồi thích hợp. Tuy nhiên, hiện tại hai chức năng này chỉ hỗ trợ nhận diện văn bản tiếng Anh.
Theo khung đánh giá AGI từng được DeepMind đề xuất, ở giai đoạn AGI-1, trí tuệ nhân tạo sẽ có khả năng học tập và suy luận xuyên lĩnh vực, xuyên phương thức, thể hiện trí tuệ trên nhiều lĩnh vực và nhiệm vụ như trả lời câu hỏi, tóm tắt, dịch thuật, hội thoại, thực hiện giao tiếp và hợp tác cơ bản với con người và các AI khác, cảm nhận và biểu đạt cảm xúc, giá trị đơn giản.
Tổng hợp từ thông báo chính thức của Google và trải nghiệm thử nghiệm thực tế, phiên bản đáng mong đợi và có tiềm năng vượt qua GPT-4 vẫn là phiên bản Ultra chưa được công bố. Nếu phiên bản này thực sự thể hiện khả năng đa phương thức như trong video demo, thì Google sẽ không còn xa mục tiêu AGI mà họ định nghĩa.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News














