
Đỉnh cao định giá 2 tỷ USD, "OpenAI phiên bản châu Âu" đã trở thành đối thủ mạnh nhất của GPT như thế nào?
Tuyển chọn TechFlowTuyển chọn TechFlow

Đỉnh cao định giá 2 tỷ USD, "OpenAI phiên bản châu Âu" đã trở thành đối thủ mạnh nhất của GPT như thế nào?
Sự trỗi dậy của Mistral AI đã mang lại nhiều đổi mới và đột phá hơn cho toàn ngành.
Tác giả: MetaverseHub
“ChatGPT quan trọng như việc phát minh ra Internet, sẽ thay đổi thế giới”. Dự đoán của Bill Gates về các mô hình lớn dường như đang từng bước trở thành hiện thực.
Trong năm qua, OpenAI đã dẫn đầu trong lĩnh vực trí tuệ nhân tạo (AI), dù là sự phổ biến của ChatGPT hay những biến động nội bộ, đều trở thành tâm điểm chú ý của ngành công nghiệp.
Tuy nhiên, cùng với sự trỗi dậy của Mistral AI, cục diện này đang trải qua những biến chuyển chưa từng có.
Là đối thủ mạnh mẽ của OpenAI, Mistral AI đã thể hiện những đột phá nổi bật trên cả phương diện công nghệ và sản phẩm, nhanh chóng trở thành một ngôi sao sáng trong lĩnh vực AI, được mệnh danh là "OpenAI phiên bản châu Âu”.
So với OpenAI, Mistral AI tập trung nhiều hơn vào ứng dụng thực tế của công nghệ, nỗ lực áp dụng những công nghệ AI tiên tiến nhất để giải quyết các vấn đề thực tiễn.

Về huy động vốn, Mistral AI ngay từ khi mới thành lập đã nhận được vòng hạt giống 113 triệu USD, thu hút sự tham gia của nhiều tổ chức đầu tư danh tiếng như Lightspeed Venture Partners, Salesforce và Ngân hàng Paris Pháp.
Chỉ trong vài tháng ngắn ngủi, công ty tiếp tục hoàn tất vòng gọi vốn A lên tới 415 triệu USD, định giá đạt mức cao kỷ lục 2 tỷ USD. Quy mô gọi vốn này cực kỳ hiếm thấy trong các công ty khởi nghiệp AI, không chỉ chứng minh sự công nhận và kỳ vọng cao của thị trường vốn dành cho Mistral AI mà còn cung cấp nền tảng tài chính vững chắc cho sự phát triển tương lai.
Sự trỗi dậy của Mistral AI không chỉ đặt ra thách thức cho OpenAI mà còn mang lại sức sống mới cho toàn ngành AI, thúc đẩy thêm nhiều đổi mới và đột phá.
01. Lực lượng đổi mới dẫn dắt cuộc cách mạng trí tuệ nhân tạo
Mistral AI, tên đầy đủ là Mistral Artificial Intelligence, là một công ty chuyên nghiên cứu và ứng dụng AI, đặc biệt tập trung vào công nghệ phục vụ xây dựng chatbot trực tuyến, công cụ tìm kiếm và các sản phẩm điều khiển bằng AI khác.
Kể từ khi thành lập, Mistral AI luôn kiên trì theo đuổi triết lý lấy con người làm trung tâm. Họ mong muốn cải thiện đời sống và phương thức làm việc của con người thông qua việc phát triển các hệ thống AI thông minh và nhân văn hơn, mang lại nhiều tiện ích và phúc lợi hơn cho nhân loại, đồng thời tận dụng các công nghệ AI tiên tiến để cung cấp các giải pháp hiệu quả và thông minh cho mọi lĩnh vực.
Dù chỉ là một công ty khởi nghiệp, nhưng đội ngũ sáng lập của Mistral AI đều là những nhân vật có xuất thân rất đáng nể.
Trong đó, Arthur Mensch từng là nhà nghiên cứu tại DeepMind - công ty AI thuộc Google; Timothée Lacroix và Guillaume Lample từng giữ các vị trí liên quan đến công nghệ này tại Meta.
Những kinh nghiệm làm việc trước đây giúp họ hiểu sâu sắc về các công nghệ như đa phương thức, RAG, tối ưu thuật toán, đồng thời nghiên cứu chuyên sâu trong các lĩnh vực như suy luận mô hình, tiền huấn luyện và nhúng mô hình.

Đoạn văn trên trang web chính thức của Mistral AI phần nào thể hiện rõ tham vọng của công ty: “Sứ mệnh của chúng tôi là thúc đẩy AI tiến xa hơn, phục vụ cộng đồng mở và khách hàng doanh nghiệp của chúng tôi. Chúng tôi cam kết thúc đẩy cuộc cách mạng AI bằng cách phát triển các mô hình mở có chất lượng sánh ngang với các giải pháp riêng tư.”
Dù hiện tại Mistral AI vẫn chỉ là một nhóm sáng tạo nhỏ, nhưng họ luôn duy trì tiêu chuẩn khoa học cao, đồng thời phát triển các mô hình AI hiệu quả, hữu ích và đáng tin cậy thông qua những đổi mới đột phá. Có lẽ đây cũng là một trong những lý do khiến Mistral AI được yêu thích đến vậy.
02. Bước nhảy vọt lớn trong mô hình ngôn ngữ lớn
Sản phẩm nổi bật nhất của Mistral AI chính là Mixtral 8x7B, hiện là một trong những mô hình lớn mở có tính cạnh tranh nhất trên thị trường, sở hữu nhiều tính năng đặc biệt và hiệu suất vượt trội so với các mô hình lớn khác.
Cốt lõi của Mixtral 8x7B nằm ở kiến trúc MoE (Mixture of Experts) đầy tính đổi mới. Kiến trúc MoE sử dụng một mạng cổng để phân bổ dữ liệu đầu vào đến các thành phần mạng thần kinh chuyên biệt gọi là "chuyên gia". Trong Mixtral 8x7B, có tổng cộng tám chuyên gia như vậy, mỗi chuyên gia đều có tới 7 tỷ tham số mô hình.
Mặc dù được trang bị tám "chuyên gia", nhưng trong quá trình xử lý thực tế, mỗi tác vụ dữ liệu chỉ cần hai "chuyên gia" tham gia. Thuật toán phân bổ tài nguyên dữ liệu này cực kỳ hiệu quả, vừa tối ưu tốc độ xử lý vừa duy trì hiệu suất mô hình.

Về huấn luyện và tinh chỉnh, Mixtral AI sử dụng dữ liệu đa ngôn ngữ để tiền huấn luyện, bao gồm tiếng Anh, tiếng Pháp, tiếng Ý, tiếng Đức và tiếng Tây Ban Nha. Mô hình Instruct được huấn luyện bằng kỹ thuật tinh chỉnh giám sát và tối ưu hóa sở thích trực tiếp (DPO), đạt điểm số cao trong các bài kiểm tra chuẩn như MT-Bench.
Khi nghiên cứu sâu về Mixtral 8x7B, Mistral AI cũng đặc biệt chú trọng tinh chỉnh một số chức năng, đặc biệt là các phiên bản có khả năng tuân theo chỉ lệnh, nhằm hướng mô hình phát triển theo hướng tinh vi và cá nhân hóa hơn.
Ngoài hiệu suất mạnh mẽ, một lý do quan trọng khác khiến Mixtral 8x7B được đánh giá cao là tính cởi mở mà nó đại diện.
Khi phát hành mô hình lớn này, Mistral AI đã công khai ngay trọng số mô hình. Chiến lược này rất hiệu quả trong việc thu hút sự chú ý của cộng đồng AI, đồng thời đảm bảo khả năng truy cập rộng rãi cho cả mục đích học thuật và thương mại. Tính cởi mở của Mixtral AI khuyến khích sự xuất hiện của các ứng dụng đa dạng, có tiềm năng mang lại những đột phá mới trong mô hình lớn và hiểu ngôn ngữ.
Phương pháp đổi mới và hiệu suất vượt trội khiến Mixtral 8x7B trở thành tiêu chuẩn ngành trong lĩnh vực mô hình lớn. Dù đã đạt được những thành tựu to lớn như vậy, Mistral AI vẫn không ngừng nghỉ, tiếp tục tích cực tối ưu hóa hiệu suất liên quan của mô hình này.
03. Sự phát triển mang tính mốc son của Mistral AI
Việc ra đời của Mixtral 8x7B đánh dấu một bước đột phá quan trọng trong công nghệ AI, đặc biệt là về cấu trúc mô hình và hiệu quả đổi mới. Vậy thì so với các mô hình lớn khác, nó thể hiện như thế nào?
Có thể vượt mặt các gã khổng lồ?
Kể từ khi ChatGPT ra đời, OpenAI luôn được coi là tiêu chuẩn vàng trong các mô hình ngôn ngữ lớn. Tuy nhiên, Mistral AI đã thể hiện hiệu suất xuất sắc trong nhiều bài kiểm tra chuẩn rộng rãi nhờ việc giới thiệu một mô hình trọng số mở hoàn toàn mã nguồn mở, thậm chí vượt trội hơn cả mô hình GPT-3.5 của OpenAI và mô hình LLama 2 13B của Meta về một số khía cạnh.

Cụ thể, trong bài kiểm tra Hiểu ngôn ngữ đa nhiệm quy mô lớn (MMLU) bao gồm 57 môn học như toán học, lịch sử Mỹ, khoa học máy tính, luật pháp... Mistral AI đạt tỷ lệ chính xác 60,1%, vượt trội so với Llama 2 7B và Llama 2 13B lần lượt chỉ trên mức 44% và 55%.
Tương tự, trong các bài kiểm tra liên quan đến suy luận thường thức và đọc hiểu, Mistral 7B cũng thể hiện tốt hơn hai mô hình Llama, với tỷ lệ chính xác lần lượt là 69% và 64%, khẳng định rõ ràng ưu thế trong lĩnh vực hiểu ngôn ngữ sâu sắc.
Mistral 7B có thể thể hiện xuất sắc trong việc hiểu ngôn ngữ sâu sắc vì trong quá trình huấn luyện, nó đã tiếp xúc với lượng lớn dữ liệu văn bản phức tạp và đa dạng, từ đó tăng cường khả năng cảm nhận ngữ cảnh và suy luận. Điều này giúp Mistral 7B hiểu và nắm bắt logic nội tại và thông tin ngữ nghĩa của văn bản một cách tốt hơn khi kiểm tra, từ đó đưa ra câu trả lời chính xác và sâu sắc hơn.
So với GPT-3, Mistral AI tập trung vào suy luận nhanh và xử lý chuỗi dài hơn. Nhờ cơ chế truy vấn nhóm và cơ chế chú ý cửa sổ trượt—một kiểu mẫu chú ý dựa trên mô hình chú ý—công ty đã tối ưu hóa độ trễ thấp hơn và thông lượng cao hơn. Điều này khiến nó phù hợp với các ứng dụng xử lý hàng loạt nhanh với chi phí thấp hơn, trở thành lựa chọn tối ưu về hiệu quả chi phí.

Ngược lại, GPT-3 nổi tiếng với khả năng hiểu ngôn ngữ sâu sắc và xử lý đa nhiệm, đồng thời được tối ưu hóa để xử lý các chuỗi ngắn hơn. Ví dụ, GPT-3 thể hiện xuất sắc trong các nhiệm vụ hệ thống hỏi đáp, có thể hiểu và tạo ra câu trả lời chính xác; nhờ khả năng hiểu ngôn ngữ mạnh mẽ, nó có thể nhanh chóng tóm tắt văn bản dài; ngoài ra, GPT-3 còn có thể thực hiện hoàn thành văn bản, dịch ngôn ngữ, phân tích cảm xúc, v.v.
Mô hình nhỏ hiệu suất cao, nhưng thiếu “rào chắn an toàn”
Mistral 7B thu hút sự chú ý nhờ hiệu suất cao và khả năng thích ứng mạnh mẽ, có đặc điểm “dấu chân số nhỏ”, tức là mô hình yêu cầu ít tài nguyên tính toán và không gian lưu trữ khi vận hành.
So với các mô hình khác phụ thuộc nghiêm ngặt vào phần cứng mạnh mẽ, Mixtral 7B thậm chí có thể chạy trên các máy tính cá nhân nhỏ không có GPU rời. Điều này cho phép linh hoạt sử dụng các công cụ triển khai như máy chủ suy luận vLLM và khung mã nguồn mở skypilot để triển khai trên mọi nền tảng điện toán đám mây như AWS, GCP và Azure. Đồng thời, mô hình cũng hỗ trợ sử dụng cục bộ song song với các triển khai tham chiếu do các nhà phát triển cung cấp.

Mặc dù khả năng hiệu suất cao và triển khai linh hoạt rất nổi bật, nhưng vấn đề an toàn lại trở thành điểm yếu của Mistral AI.
Các mô hình LLM như GPT-3 và Llama 2 có bộ lọc nội dung nghiêm ngặt, có thể từ chối tạo ra các thông điệp mà công ty mẹ xác định là có hại, nhưng Mixtral 7B lại thiếu “rào chắn an toàn” này. Từng có người dùng hỏi mô hình hỏi-đáp của Mistral AI cách chế tạo bom và thực hiện giết người, và chatbot của họ đã đưa ra hướng dẫn chi tiết rợn người.
Mặc dù đội ngũ Mistral AI cam kết chia sẻ công nghệ một cách cởi mở, điều này có thể trở thành con dao hai lưỡi đối với sản phẩm AI của họ, bởi các cơ quan quản lý có thể áp dụng các biện pháp nghiêm khắc hơn đối với mô hình này do thiếu bộ lọc nội dung truyền thống.
Mặt khác, CEO của Mistral AI, Arthur Mensch, từng phát biểu tại Hội nghị An toàn AI rằng: “Tồn tại sự đánh đổi giữa rủi ro và lợi ích mà mã nguồn mở mang lại, chúng ta cần tìm ra giải pháp tối ưu thông qua đối thoại động.”
Theo thông tin, công ty đang xây dựng một nền tảng tích hợp bộ lọc mô-đun và cơ chế mô-đun để quản lý mạng mô hình. Có thể, công ty sẽ bắt tay vào giải quyết vấn đề an toàn và bảo vệ AI từ chính cấu trúc bên trong mô hình.
Trong bối cảnh cạnh tranh khốc liệt hiện nay giữa các mô hình ngôn ngữ lớn, Mistral AI nổi bật nhờ hiệu suất vượt trội và khả năng thích ứng xuất sắc. Tuy nhiên, trước những thách thức tiềm tàng về an toàn AI, giới chuyên môn cũng đang suy nghĩ cách thức cân bằng giữa mã nguồn mở và an toàn.
04. Cùng Google Cloud kiến tạo tương lai thông minh
Ai cũng biết, Google Cloud là một trong những ông lớn hàng đầu trong lĩnh vực điện toán đám mây toàn cầu. Khi gã ngựa ô trong lĩnh vực AI – Mistral AI – gặp gỡ Google Cloud, một tương lai đầy tiềm năng đang dần hé lộ trước mắt chúng ta.
Tháng trước, Google Cloud tuyên bố thiết lập quan hệ đối tác toàn cầu với Mistral AI, theo đó Mistral AI sẽ sử dụng hạ tầng cơ sở của Google Cloud để phân phối và thương mại hóa các mô hình ngôn ngữ lớn của mình.

Tận dụng công nghệ điện toán đám mây và dữ liệu lớn mạnh mẽ của Google Cloud, Mistral AI có tiềm năng đạt được những đột phá chưa từng có trong các lĩnh vực như suy luận mô hình, tiền huấn luyện... Không chỉ thúc đẩy mạnh mẽ sự phát triển công nghệ AI, mà còn mang đến cho các ngành nghề các giải pháp thông minh và hiệu quả hơn.
Đồng thời, sự hợp tác giữa hai bên cũng sẽ đẩy nhanh quá trình ứng dụng thực tế của Mistral AI trong các ngành nghề khác nhau. Dù là thương mại điện tử, tài chính, y tế hay giáo dục, Mistral AI đều sẽ mang lại nhiều tiện ích và phúc lợi hơn cho con người.
Tất nhiên, sự trỗi dậy của Mistral AI không phải là điều ngẫu nhiên. Là một công ty tràn đầy sức sống và tinh thần đổi mới, Mistral AI luôn kiên trì khám phá ranh giới công nghệ AI và ứng dụng nó để giải quyết các vấn đề thực tế.
Hiệu suất nổi bật và năng lực đổi mới của họ khiến người ta không khỏi tự hỏi: Liệu công ty khởi nghiệp này có thể vượt qua OpenAI và trở thành nhà lãnh đạo trong lĩnh vực AI tại châu Âu? Hãy cùng chờ xem.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News












