
Tạo ra AI "toàn năng, hiện diện khắp mọi nơi", tại sao Baidu lại bắt đầu từ "hệ điều hành"?
Tuyển chọn TechFlowTuyển chọn TechFlow

Tạo ra AI "toàn năng, hiện diện khắp mọi nơi", tại sao Baidu lại bắt đầu từ "hệ điều hành"?
Siêu năng suất thông minh và năng động.
Tác giả: Lạp Phong Cực Khách

Mô hình lớn có thể tóm tắt những gì đã xảy ra trong 5.000 năm lịch sử Trung Hoa, nhưng lại không trả lời được hiện tại là mấy giờ; có thể giải thích rõ ràng cơ học lượng tử là gì, nhưng lại rất khó để tạo ra một bản trình bày PowerPoint chuyên nghiệp, đầy đủ hình ảnh và văn bản.
Tại sao mô hình lớn dường như có thể làm mọi thứ, nhưng khi dùng thực tế thì luôn "thiếu vài phần"?
Lý do rất đơn giản: thông minh, bác học không đồng nghĩa với khả năng hành động.
Thông minh cần mô hình lớn được huấn luyện qua lượng kiến thức khổng lồ, phát triển bộ não mạnh mẽ, từ đó trả lời tốt một câu hỏi;
Nhưng để đồng thời đạt được cả hai yếu tố thông minh và năng lực hành động, cần trang bị cho bộ não thông minh này một cơ thể linh hoạt, thực hiện được "suy nghĩ sâu sắc + giao việc sâu sắc".
Do đó, việc thúc đẩy mô hình lớn tiến hóa từ "suy nghĩ thông minh" sang trạng thái "vừa thông minh vừa năng động" chính là chìa khóa quyết định liệu làn sóng mô hình lớn này sẽ chỉ là hiện tượng thoáng qua hay sẽ thay đổi lịch sử.
Baidu đã đưa ra mẫu điển hình.
Ngày 25 tháng 4, tại hội nghị nhà phát triển AI Create 2025 của Baidu, người sáng lập Baidu Lý Diễm Hồng đã giới thiệu Thương Chu OS – hệ điều hành đầu tiên trên thế giới trong lĩnh vực nội dung, do Baidu Wenku và Baidu Wangpan cùng ra mắt.
Với việc tích hợp triệt để các công nghệ nền tảng, năng lực và dữ liệu tích lũy trước đây từ Baidu Wenku và Wangpan, Thương Chu OS có thể hòa quyện như dòng nước vào nhiều tình huống khác nhau, hiện thực hóa việc giao việc chất lượng cao, toàn trình với mức độ tiếp cận thấp nhất và giao diện tương tác thuận tiện nhất cho người dùng.
Dựa trên Thương Chu OS, tầm nhìn và kỳ vọng về AI của Baidu Wenku và Baidu Wangpan là thực hiện việc cung cấp toàn diện, toàn trình ở bất cứ lúc nào, bất cứ nơi đâu và trên mọi thiết bị đầu cuối, biến AI thành thứ "có thể làm mọi việc, hiện diện khắp nơi".
01
Thương Chu OS: Khiến AI tiến hóa lên cấp độ hệ điều hành
Trong ngành công nghệ tồn tại một sự đồng thuận: bất kỳ công nghệ nào muốn chuyển từ phòng thí nghiệm đến cuộc sống hàng ngày đều phải trải qua một quá trình dài theo đường cong Gartner.

Ở giai đoạn đầu của đường cong này, sự tăng trưởng chủ yếu dựa vào kỳ vọng cuồng nhiệt của thị trường do tiến bộ công nghệ mang lại. Tuy nhiên, khi hiệu quả ứng dụng thực tế không lý tưởng, giai đoạn tăng trưởng này nhanh chóng bước vào suy thoái. Chỉ khi các điều kiện cần thiết cho ứng dụng dần chín muồi và được cụ thể hóa thành hạ tầng gần như không rào cản, có thể làm mọi việc và hiện diện khắp nơi, thì bùng nổ hệ sinh thái ở giai đoạn thứ hai mới diễn ra.
Một dấu hiệu tiêu biểu cho sự khởi đầu của giai đoạn thứ hai trong ngành phần mềm thường là sự xuất hiện của một hệ điều hành trưởng thành, ví dụ như Windows đối với ngành máy tính, iOS đối với ngành điện thoại di động.
Vậy làm thế nào để định nghĩa một hệ điều hành trưởng thành? Khoảng 15 năm trước, ngành công nghệ toàn cầu từng tranh luận: cùng là thiết bị cảm ứng, màn hình lớn, gọi điện, chụp ảnh, nghe nhạc, nhắn tin, vì sao iPhone (hay điện thoại thông minh) và điện thoại chức năng trước đây lại là hai loài hoàn toàn khác biệt?
Một trong những lý do cốt lõi là iOS kế thừa từ nhân MAC OS tính ổn định ở cấp độ nhân và khả năng đa nhiệm, đồng thời mở ra một hệ sinh thái mở, cho phép các nhà phát triển tự do tích hợp các năng lực nền tảng của Apple để tạo ra ứng dụng sáng tạo riêng. Điều này khiến việc định nghĩa một chiếc điện thoại không còn nằm trong tay một vài gã khổng lồ như Motorola, Nokia mà trở thành một ngành công nghiệp rộng lớn với vô số khả năng do toàn bộ hệ sinh thái cùng tham gia, từ đó mở ra cánh cửa cho hơn mười năm Internet di động.
Công nghệ không ngừng tiến hóa, nhưng câu chuyện thương mại luôn lặp lại theo tiết tấu tương tự. Các nguyên tắc nền tảng đã được kiểm chứng trong thời đại hệ điều hành điện thoại vẫn áp dụng được trong việc xây dựng hệ điều hành thời đại mô hình lớn.
Tóm lại gồm ba điểm: năng lực nền tảng đầy đủ, điều phối trung tâm linh hoạt, hệ sinh thái dịch vụ ứng dụng phồn thịnh. Ba yếu tố này chính xác tương ứng với ba tầng kiến trúc của Thương Chu OS: hạ tầng nền tảng, hệ thống trung tâm và dịch vụ ứng dụng. Điểm khác biệt duy nhất là cây cầu nối giữa ứng dụng với trung tâm và hạ tầng, thay vì API truyền thống, nay được thay bằng MCP chuẩn hóa hơn và dễ tiếp cận hơn.

Trong đó, phần hạ tầng nền tảng MCP Server có thành phần cốt lõi là Chatfile Plus, chủ yếu dùng khung kiến thức hóa để phân tích, xử lý nội dung ở cấp độ phần tử với nhiều dạng thức, hình thái và định dạng khác nhau, cùng loạt công cụ khung như hiểu đa phương tiện, tìm kiếm đa phương tiện, chuyển mã và phân tích tập tin.
Đồng thời, Baidu Wenku và Wangpan đã xây dựng "ba kho dữ liệu": kho kiến thức công cộng, kho kiến thức tư nhân và kho ký ức. Cụ thể là dữ liệu kiến thức công cộng tích lũy nhiều năm từ Baidu Wenku (kho kiến thức công cộng), dữ liệu kiến thức người dùng ủy quyền từ Wangpan (kho kiến thức tư nhân), cũng như các lệnh thao tác, thói quen sử dụng và lịch sử tạo nội dung trước đây của người dùng trên Wenku hoặc Wangpan (kho ký ức).
Dữ liệu này thường xuất hiện dưới nhiều dạng thức, hình thái và định dạng khác nhau. Kho kiến thức công cộng cung cấp kiến thức phổ thông, trong khi kho kiến thức tư nhân và kho ký ức lưu giữ dữ liệu cá nhân hóa của người dùng.
Trong khung kiến thức hóa, Thương Chu OS sẽ xử lý các nội dung đa phương tiện trong "ba kho" này bằng cách vector hóa và gắn thẻ, tức là chuyển đổi dữ liệu phi cấu trúc như hình ảnh, văn bản, video, âm thanh, tài liệu... thành dữ liệu vector đa chiều mà máy tính có thể hiểu được – một nhóm token – thông qua các mô hình chuyên biệt khác nhau.
Ở hệ thống trung tâm, Baidu Wenku và Wangpan tự phát triển "ba công cụ": bộ soạn thảo tổng hợp (cho việc chỉnh sửa nội dung như tài liệu, PPT), trình đọc (đọc tài liệu, PPT...) và trình phát (phát nội dung âm thanh, video).
Đồng thời, Thương Chu OS còn có thể thông qua "trung tâm điều phối", kết hợp các thành phần tương tác, mô hình ý định và hạ tầng truyền tải, cùng dữ liệu ký ức và chân dung người dùng, hiểu được ý định người dùng bằng mô hình và phân bổ, điều phối Agent một cách hiệu quả.
Tầng trên cùng là một loạt AI Agent. "Thương Chu OS" tích hợp hàng trăm Agent AI từ Wenku và Wangpan như PPT, sách tranh AI, sơ đồ tư duy AI, poster AI, ghi chú AI, quét AI, ghi âm nghe AI... Các dạng thức tạo nội dung bao gồm hình ảnh, văn bản, phim ảnh, âm thanh, bao phủ toàn diện các tình huống học tập-văn phòng, đời sống-giải trí. Nhờ khả năng chỉnh sửa, hiệu chỉnh chi tiết từ bộ soạn thảo tổng hợp, việc tìm kiếm và tạo nội dung đạt chất lượng cao hơn, phù hợp hơn với nhu cầu nhiệm vụ cá nhân hóa thực tế.
02
Trên Thương Chu OS,
Xây dựng thêm nhiều Agent "vừa thông minh vừa năng động"
Liên quan đến dịch vụ ứng dụng ở tầng trên cùng, Baidu Wenku & Baidu Wangpan không chỉ ra mắt hàng trăm Agent AI đã được hàng tỷ người dùng kiểm chứng là hữu ích, mà còn tích hợp nhiều Agent chuyên nghiệp bên thứ ba để mở rộng hệ sinh thái ứng dụng.
Là "nền tảng lấy và sáng tạo nội dung AI toàn diện", Baidu Wenku đã có hơn 40 triệu người dùng trả phí, người dùng AI hoạt động hàng tháng đạt 97 triệu. Baidu Wangpan cũng đã nâng cấp thành "nền tảng dịch vụ nội dung toàn diện", phục vụ hơn 1 tỷ người dùng, tổng dung lượng sử dụng vượt 100 tỷ GB, người dùng AI hoạt động hàng tháng trên 80 triệu. Baidu Wenku và Baidu Wangpan đã trở thành "siêu năng suất" thực sự trong thời đại mô hình lớn.
Tại hội nghị, Baidu Wenku và Baidu Wangpan còn giới thiệu các năng lực mới được phát triển dựa trên "Thương Chu OS": "GenFlow Siêu Đồng đội" và "Ghi chú AI".
GenFlow Siêu Đồng đội là khả năng hợp tác đa tác nhân được ra mắt trên ứng dụng Baidu Wenku. Với sự hỗ trợ của "Thương Chu OS", việc tạo nội dung có thể thực hiện song song nhiều nhiệm vụ, đồng thời dựa trên thông tin mạng toàn diện và chuyên nghiệp nhất, cùng thói quen và sở thích cá nhân của người dùng để hoàn thành việc giao nhiệm vụ.
Ví dụ, người dùng muốn tổ chức một buổi lễ cưới, nhưng đầu vào ban đầu chỉ là một câu đơn giản: "Tôi muốn tổ chức một đám cưới ngoài trời ở Hải Nam vào dịp lễ 1 tháng 5, hãy giúp tôi lập kế hoạch và thiệp mời".
Yêu cầu tưởng chừng đơn giản, chỉ cần điền vào mẫu sẵn là xong. Nhưng để làm hài lòng người dùng, cần biết sở thích thẩm mỹ, kỳ vọng ngân sách, sở thích về quy trình của họ, cần biết thời tiết, lượng khách, phân bố địa điểm ở Hải Nam vào dịp lễ 1 tháng 5, sau đó cần kết hợp các hình ảnh, văn bản và kiến thức này bằng công cụ PPT để tạo thành một kế hoạch hoàn chỉnh, cuối cùng dựa trên kế hoạch và sở thích thẩm mỹ của người dùng để tạo một poster thiệp cưới hoàn chỉnh.
Để hoàn thành nội dung trên, cần lần lượt điều phối lịch sử trò chuyện, lịch sử duyệt web của người dùng, nhận diện ý định, tìm kiếm toàn mạng, công cụ PPT, phân tích ý định người dùng, hiểu sở thích của họ, tự do kết hợp công cụ, cuối cùng đưa ra một kế hoạch tổ chức chi tiết bao gồm quy trình, ngày tháng, địa điểm, ngân sách, chủ đề, chi tiết thực hiện, phong cách, sắp xếp nhân sự...
Đồng thời, kế hoạch và poster mà người dùng cần phải bổ trợ lẫn nhau, nghĩa là mọi thông tin phải nhất quán, được xuất ra song song bởi cùng một hệ điều hành.
Tất nhiên, AI chắc chắn không thể tạo ra kết quả làm hài lòng tất cả mọi người ngay từ đầu, do đó cả kế hoạch tổ chức và poster đều cần có khả năng chỉnh sửa, và nền tảng cho khả năng này chính là năng lực của bộ soạn thảo tổng hợp "Thương Chu OS".
Không khó để nhận thấy, từ suy nghĩ sâu sắc đến giao việc sâu sắc, GenFlow Siêu Đồng đội gần như là sản phẩm "hợp tác đa tác nhân" thực tế duy nhất trên thị trường. Không chỉ giải quyết các bệnh phổ biến của sản phẩm hợp tác đa tác nhân như chi phí cao, thời gian tạo lâu, hiệu suất thấp, không thể giao việc ổn định, không thể tối ưu qua nhiều vòng hội thoại, mà còn tích hợp trực tiếp vào sản phẩm trưởng thành và kết hợp với dữ liệu riêng tư được ủy quyền của người dùng, giúp AI thật sự có cơ hội đạt được mục tiêu "làm được mọi việc, hiện diện khắp nơi".
Ghi chú AI của Baidu Wangpan là trợ thủ đắc lực cho vô số người làm văn phòng, ôn thi nghiên cứu sinh, công chức.
Ghi chú AI là sổ ghi chú AI đa phương tiện đầu tiên trong ngành, có thể nhúng các video học tập, tài liệu ôn thi nghiên cứu sinh và trang ghi chú mà người dùng lưu trữ trên Baidu Wangpan vào cùng một giao diện, thực hiện liên kết mượt mà, nội dung video và ghi chú liên kết chặt chẽ với nhau, từ xem video, tạo ghi chú AI, tổng hợp sơ đồ tư duy AI đến cuối cùng ra đề kiểm tra kết quả học tập, bao phủ toàn chu kỳ học tập của người dùng.
Ví dụ, việc tiếng Anh thi nghiên cứu sinh quá khó đã trở thành chủ đề nóng trong thời gian gần đây, người dùng muốn ôn tập tập trung cho môn tiếng Anh. Ghi chú AI sẽ trước tiên tìm kiếm các tài liệu liên quan lưu trữ trong Wangpan của người dùng, đồng thời tra cứu các điểm thi công khai trên mạng, sắp xếp chúng. Nhưng toàn bộ quá trình không dừng lại ở đó, Ghi chú AI còn kết hợp với các đề thi thật qua các năm để kiểm định cuối cùng các điểm thi do mình tạo ra, chỉ những điểm thi đã qua kiểm định mới tiếp tục tạo sơ đồ tư duy, dự đoán đề thi, giúp người dùng tăng tốc tiến độ học tập.
Trong quá trình này, số lượng công cụ được gọi đến không hề ít hơn việc lập kế hoạch cưới. Ví dụ, tìm điểm thi, tìm đề thi thật cần năng lực tìm kiếm toàn mạng, trong khi đề thi thật thường ở dạng PDF hoặc thậm chí là ảnh, phần giải thích của giảng viên nổi tiếng lại ở dạng video, do đó cần năng lực phân tích nội dung đa phương tiện. Việc tạo sơ đồ tư duy cuối cùng và dự đoán đề thi cần năng lực suy luận của mô hình lớn, năng lực tạo nội dung đa phương tiện, năng lực ánh xạ và liên kết giữa các nội dung khác nhau, đồng thời phải đảm bảo tính chính xác tuyệt đối của nội dung được tạo.
Phía sau tất cả là sức mạnh hỗ trợ từ "Thương Chu OS".
Tất nhiên, Baidu hỗ trợ các nhà phát triển toàn diện chấp nhận MCP, do đó Thương Chu OS không chỉ phục vụ hệ sinh thái nội bộ của Baidu. Một mắt xích quan trọng nhất để hệ điều hành phát triển mạnh mẽ là mở cửa, khơi dậy khả năng sáng tạo của đông đảo nhà phát triển.
Vì vậy, để hệ sinh thái và ứng dụng phát huy giá trị tối đa, Baidu Wenku và Baidu Wangpan dựa trên "Thương Chu OS", đi đầu trong việc áp dụng đầy đủ MCP vào việc kết nối sản phẩm và hệ sinh thái, xây dựng hệ thống ba lớp MCP Server-Client-Host, mở các năng lực của Wenku, Wangpan dưới dạng MCP Server, thông qua MCP Client SDK, thuận tiện cho nhiều người dùng doanh nghiệp, nhà phát triển, ứng dụng tác nhân thông minh và các MCP Host khác tiếp cận.

Trong đó, ví dụ tiêu biểu nhất là điện thoại Samsung. Samsung đang tích hợp nhiều MCP server từ Baidu Wenku và Wangpan như tải lên, tải xuống, tìm kiếm, chia sẻ tập tin và hiểu nội dung.
Một mặt, người dùng trên giao diện trợ lý giọng nói điện thoại có thể trực tiếp thực hiện các chức năng như tải tập tin lên Wangpan để sao lưu, chia sẻ trên đám mây, tóm tắt tài liệu và hỏi đáp nội dung bằng cách nói chuyện.
Mặt khác, các server này còn làm phong phú thêm năng lực lưu trữ đám mây của hệ thống điện thoại Samsung, giải quyết vấn đề điện thoại khó sao lưu và chia sẻ hàng loạt tập tin lớn, nhiều tập tin.
Ví dụ, người dùng trong thư viện ảnh điện thoại, gọi trợ lý giọng nói nói: "Sao lưu các bức ảnh chụp ở奧森 hôm qua lên Baidu Wangpan, gửi ảnh của Tiểu Minh cho anh ấy". Các ảnh liên quan sẽ được tải lên tài khoản Wangpan được ủy quyền của người dùng, tạo liên kết chia sẻ, trợ lý điện thoại sau đó gọi danh bạ, gửi liên kết này qua SMS đến điện thoại đối phương, chỉ cần nhấn vào liên kết, người dùng có thể trực tiếp vào Baidu Wangpan xem hoặc sao chép.
Không nghi ngờ gì nữa, kiểm nghiệm năng lực nền tảng của hệ điều hành không nằm ở việc chất đống công cụ hay có bao nhiêu công nghệ đen. Hệ sinh thái dịch vụ ứng dụng ở tầng trên có dễ dùng, trưởng thành và phong phú hay không, chính là tiêu chuẩn kiểm nghiệm tốt nhất cho năng lực của hệ điều hành.
03
Câu chuyện hệ điều hành không có điểm kết thúc
Trong thị trường vốn, kiểu doanh nghiệp được nhà đầu tư đánh giá cao nhất được gọi là "bạn của thời gian".
"Bạn của thời gian" nghĩa là khi doanh nghiệp làm đúng một việc, sau đó chỉ cần tiếp tục làm, lợi nhuận sẽ tăng trưởng như một cỗ máy vĩnh cửu, các nhà phát triển hệ sinh thái cũng liên tục được hưởng lợi.
Hệ điều hành chính là một thị trường kiểu cỗ máy vĩnh cửu như vậy. Miễn là thị trường máy tính, điện thoại vẫn tồn tại, thì câu chuyện của các hệ điều hành thuộc về Microsoft, Apple, Google sẽ không bao giờ kết thúc.
Mô hình lớn cũng tương tự. Khi "suy nghĩ sâu sắc + giao việc sâu sắc + dữ liệu công cộng-tư nhân + hệ sinh thái MCP" kết hợp với nhau, trong tương lai sẽ trở thành AI thời đại mới "làm được mọi việc, hiện diện khắp nơi", khi đó sự bùng nổ loài mới kiểu kỷ nguyên Cambri sẽ liên tục diễn ra.
Trong quá trình này, nhìn xuống, là Baidu Wenku, Baidu Wangpan... mở năng lực của chính mình. Thông qua việc tích cực ôm ấp hệ sinh thái, trở thành người sáng tạo loài mới mô hình lớn và người đặt ra quy tắc mới.
Nhìn lên, là vô số Agent mới được tạo ra, được nhìn thấy dựa trên "Thương Chu OS", tạo nên hệ sinh thái dịch vụ ứng dụng mới hùng vĩ, tuôn trào.
Còn hiện tại, mọi câu chuyện mới chỉ vừa bắt đầu.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News










