
Phân tích toàn diện: Manus đã ra đời như thế nào?
Tuyển chọn TechFlowTuyển chọn TechFlow

Phân tích toàn diện: Manus đã ra đời như thế nào?
"Agent có thể là vấn đề 'căn chỉnh', chứ không phải vấn đề về năng lực cơ bản của mô hình"
Tác giả: Uy Thần

Câu chuyện khởi nghiệp mang lại nhiều cảm hứng nhất cho tôi năm ngoái đến từ Trương Lộ Vũ, người sáng lập Dify.
Lần đầu tiên tôi gặp anh ấy là tại sự kiện "Tây Khê Luận Đạo" năm 2023. Trong danh sách những cái tên nổi bật lúc bấy giờ, "Trương Lộ Vũ" chẳng mấy ai để ý. Khi gặp lại vào năm 2024, Dify đã trở thành một câu chuyện hoàn toàn khác – một nhà sáng lập không có nền tảng hào nhoáng nào, lại kiên trì vượt qua mọi nghi ngờ về mô hình kinh doanh để tạo ra một trong những sản phẩm AI mã nguồn mở thành công nhất thế giới.
Những điều xảy ra với công ty này trong vòng một năm, ví dụ như bất ngờ trở nên phổ biến tại thị trường Nhật Bản vốn dĩ bảo thủ và khó xâm nhập, khiến tôi hiểu sâu hơn về bản chất của việc khởi nghiệp. Có quá nhiều yếu tố bất ngờ, cần rất nhiều may mắn, nhưng cuối cùng vẫn đòi hỏi năng lực để tìm ra con đường giữa muôn vàn thay đổi và thất bại.
Hiện tại, một câu chuyện tương tự đang diễn ra với một nhà sáng lập khác cũng nhận được rất nhiều chú ý – Tiêu Hồng và đội ngũ của anh ấy tại Manus.im.
Bốn tháng trước, Tiêu Hồng từng chia sẻ một nỗi băn khoăn: «Đội ngũ chúng tôi giỏi từ 0 đến 1, khả năng nắm bắt cơ hội rất mạnh, nhưng khi bắt đầu từ 1 đến N thì trạng thái không còn tốt như vậy nữa».
Trong quá khứ, các dự án khởi nghiệp của anh đều đạt được doanh thu ổn định và đáng kể, công ty trước đó cũng đã được mua lại thành công. Năm 2023, công ty mới của anh – "Hiệu ứng Bướm" – đã phát triển Monica.im, một tiện ích mở rộng trình duyệt, cạnh tranh theo cách riêng biệt trong bối cảnh hàng trăm mô hình AI đang đua nhau, trở thành một trong những ứng dụng AI tăng trưởng nhanh nhất và trải nghiệm sản phẩm xuất sắc nhất. Nhìn bề ngoài, anh là một người khởi nghiệp thuận lợi. Và tất cả những điều này chỉ mới ở tuổi 32.
Nhưng thực tế, anh lại không cảm thấy nhiều niềm vui. Theo Tiêu Hồng, danh hiệu «người sáng lập liên tiếp thành công», hay cảm giác sảng khoái khi liên tục tạo ra sản phẩm từ 0 đến 1, giống như một cái thành trì – bạn thích thú vì có thể nắm bắt cơ hội từ 0 đến 1, nhưng đồng thời lại lo sợ rằng liệu mình lại phải làm lại từ đầu lần nữa.
Năm 2024, giới chuyên môn cho rằng trợ lý AI như Monica.im, dù có chức năng ghi nhớ, sẽ chịu áp lực lớn từ các đối thủ mạnh như DouBao, và việc phát triển sẽ không dễ dàng như năm 2023. Monica.im có khởi đầu tuyệt vời từ 0 đến 1, nhưng chưa chắc đã đủ sức tiến lên từ 1 đến N.
Và chính vì vậy mà anh cảm thấy băn khoăn – bởi «đội ngũ sắp tới thực sự cần làm những việc khó hơn, có tiềm năng cao hơn», khám phá những điều có thể vượt qua ranh giới từ 1 đến N.
Trước đó, nhiều người theo dõi Monica.im đều cho rằng «việc khó hơn, tiềm năng cao hơn» này chính là chiếc trình duyệt AI đã đồn đại lâu ngày nhưng đội ngũ vẫn chưa ra mắt.
Nhưng bây giờ nhìn lại, hóa ra họ đã đoán sai.
Hành trình khám phá khó khăn thực sự này là: từ bỏ trình duyệt AI đã sẵn sàng phát hành, tìm kiếm sản phẩm AI cho «khoảnh khắc ChatGPT» tiếp theo, xác định mục tiêu là agent đa năng, và cuối cùng tạo ra Manus.im vừa mới ra mắt.
Mức độ đổi mới của Manus, và mức độ thành công trong tương lai, hiện đang là chủ đề bàn tán sôi nổi. Nhưng điều đáng chú ý vẫn là hướng đi và quá trình tìm ra hướng đi đó giữa những điều không như mong đợi. Manus.im chưa chắc đã giúp đội ngũ này thành công từ 1 đến N, thậm chí có thể không lặp lại đà phát triển của Monica.im, nhưng như tên công ty – «Hiệu ứng Bướm», những hành động nhỏ và quyết định tưởng chừng vô tình có thể ảnh hưởng sâu rộng đến tương lai. «Kết nối các điểm», con đường ngày mai nằm trong những trải nghiệm hôm nay.
01 Trải nghiệm sản phẩm độc đáo của Manus bắt nguồn từ bài học từ việc làm «trình duyệt AI»
Từ giữa đến cuối năm ngoái, việc đội ngũ «Hiệu ứng Bướm» phát triển trình duyệt AI đã là một bí mật bán công khai trong ngành. Sản phẩm chính thức ra mắt gây chú ý cực lớn lại chính là Manus.
Nếu bạn trực tiếp dùng thử Manus hoặc xem video minh họa, bạn sẽ nhận ra một điểm khác biệt rõ rệt so với chatbot hoặc các ứng dụng kiểu agent khác: Manus có thể thực hiện nhiệm vụ một cách bất đồng bộ và song song.
Khi bạn dùng các ứng dụng như DouBao, Kimi hay Computer Use, nếu đặt một câu hỏi, bạn phải chờ nó trả lời xong. Nếu bạn nói chuyện hoặc đưa lệnh mới trong lúc nó đang xử lý, đoạn trả lời/nhiệm vụ trước sẽ bị ngắt quãng. Bạn và nó chỉ có thể trao đổi theo kiểu tiếp sức A-B-A-B.
Nhưng với Manus.im, dù giao diện vẫn giống chatbot, bạn có thể đưa ra tới 20 yêu cầu để nó thực hiện đồng thời. Trong lúc đó, bạn có thể làm bất cứ việc gì khác trên máy tính – xem phim, viết tài liệu, chơi game – mà không ảnh hưởng đến hoạt động của Manus. Khi nào tác vụ hoàn thành hoặc gặp vấn đề, Manus sẽ thông báo cho bạn. Nếu trong quá trình thực hiện, bạn thấy nó suy nghĩ lệch hướng, bạn có thể bổ sung prompt bất kỳ lúc nào, và Manus sẽ tiếp tục suy luận và hành động với ngữ cảnh mới.
Trải nghiệm bất đồng bộ, có thể xử lý song song – đúng như có một đội thực tập sinh thật sự giúp bạn làm việc.
Thực tế, thiết kế kiến trúc sản phẩm nhằm tạo trải nghiệm bất đồng bộ này bắt nguồn từ bài học mà đội ngũ rút ra từ sản phẩm trước đó chưa công bố – trình duyệt AI. Đồng thời đây cũng là lý do họ đầu tư rất nhiều công sức nhưng quyết định ngừng làm trình duyệt vào tháng 10 năm ngoái.

The Browser Company ngày 25/10/2024 tuyên bố ngừng phát triển tính năng mới cho trình duyệt Arc, chuyển nguồn lực sang một trình duyệt mới Dia, nhằm tạo ra một trình duyệt AI đơn giản và dễ dùng hơn.|Nguồn: Website chính thức của Arc
«Trong trình duyệt AI, AI liên tục làm gián đoạn người dùng». Vì được thiết kế cho người dùng cá nhân, khi AI hoạt động thì bạn không thể dùng máy. Khi AI bắt đầu làm việc, bạn chỉ có thể ngồi nhìn. Bạn không dám lấy lại chuột, bàn phím, lại còn sợ vô tình chạm vào khiến toàn bộ quy trình sập và phải làm lại từ đầu.
Điều này khiến đội ngũ rút ra hai kết luận:
-
Việc sử dụng trực tiếp máy tính để thực hiện Computer Use trong thời gian ngắn là khá bất khả thi.
-
AI nên dùng trình duyệt, nhưng không phải trong trình duyệt của bạn, mà nên có trình duyệt riêng cho AI, và trình duyệt đó tốt nhất nên ở trên đám mây, sau đó phản hồi kết quả về cho bạn.
Trong cuộc phỏng vấn với Trương Tiểu Quân của Tencent Tech, Tiêu Hồng nói rằng khi tổng kết các dạng sản phẩm từ Jasper đến ChatGPT, Monica, Cursor đến Devin, họ nhận thấy «lập trình viên thật» Devin rất phù hợp với kiến trúc trải nghiệm bất đồng bộ này.
Không giống Windsurf, đôi khi buộc bạn phải xác nhận có cài thư viện này vào máy hay không; hoặc khi thực hiện lệnh dòng lệnh, yêu cầu bạn điền yes/no vì có thể làm hỏng máy hoặc gây xung đột phần mềm – nó buộc bạn phải điền «yes» mới tiếp tục bước tiếp theo, nhằm đẩy trách nhiệm.
Vì vậy, theo nhóm Manus, «chatbot nên có một chiếc máy tính trên đám mây, nơi nó viết code, tra cứu thông tin qua trình duyệt. Vì là máy chủ ảo, hỏng cũng không sao, có thể tạo lại. Nó thậm chí có thể giải phóng máy chủ đó sau khi hoàn thành nhiệm vụ».
Đáng chú ý, trong khi Devin chọn lĩnh vực chuyên sâu, kỹ thuật cao dành cho kỹ sư, nhóm Manus lại chọn trợ lý AI đa năng, tiêu dùng – có cả Web và App. Đây là trợ lý AI đa năng có thể thực hiện nhiều loại nhiệm vụ trong công việc và đời sống theo chỉ đạo, và trong tương lai sẽ cung cấp kết quả với mức giá phù hợp với người tiêu dùng.
02 Less Structure, More Intelligence
Có định hướng rõ ràng, bước tiếp theo là hiện thực hóa ý tưởng. Vậy Manus làm được điều này như thế nào?
Theo Trương Đào, cộng sự phụ trách sản phẩm của Manus, điều này đòi hỏi việc trang bị cho mô hình lớn một chiếc máy tính, đồng thời cấp quyền hệ thống (kết nối kho lưu trữ mã, các website truy vấn dữ liệu chuyên môn, API riêng), và đào tạo nhất định.
Như vậy, AI có thể tự dùng máy tính này mở trình duyệt, thao tác gọi công cụ, quan sát phản hồi từ công cụ để đánh giá ảnh hưởng hành động của mình đến thế giới thực, rồi suy nghĩ bước tiếp theo, hành động, quan sát... Đây là quá trình AI hoàn thành nhiệm vụ thông qua khám phá và nghiên cứu. Trong quá trình này, Manus cũng ngày càng hiểu rõ yêu cầu của bạn khi được «huấn luyện», và trong tương lai, ngay cả khi bạn không định nghĩa rõ nhu cầu, nó cũng có thể «đoán ý» dựa trên kiến thức tích lũy từ các nhiệm vụ trước.

Lý Bác Kiệt, thần đồng Huawei và người sáng lập Logenic AI, cho rằng điểm nổi bật nhất của Manus là giải quyết vấn đề theo phong cách lập trình viên cực khách.|Ảnh chụp màn hình WeChat
Triết lý sản phẩm của Manus dần được làm rõ trong quá trình thực hiện: Less Structure, More Intelligence (ít cấu trúc hơn, nhiều trí tuệ hơn).
Đây cũng là lúc nhóm Manus liên tục có những khoảnh khắc «A-Ha, Wait!» (sửng sốt). Ví dụ, một cảnh tượng xảy ra trong nhóm vào tháng 1 năm nay:
Khi yêu cầu Manus thực hiện một bài kiểm tra GAIA: «Trong một video YouTube phong cách National Geographic, các con chim cánh cụt ra vào liên tục, hãy đếm xem trong một khung hình, tối đa có bao nhiêu loại chim cánh cụt xuất hiện đồng thời?»
Rồi điều kỳ diệu xảy ra.
Manus trước tiên mở liên kết video, hành động đầu tiên là «Nhấn K», sau đó lần lượt chụp ảnh để ghi lại loại chim nào xuất hiện ở khung hình nào, cuối cùng kết luận khung hình có nhiều nhất là 3 loại. Sau đó, để kiểm tra lại, hành động tiếp theo là «Nhấn 3»... Cuối cùng đưa ra đáp án là 3.
Là người tạo ra Manus, lẽ ra phải hiểu rõ giới hạn khả năng của nó, nhưng với nhóm, thực tế là «luôn có điều bất ngờ». Điều gây sốc không chỉ là Manus làm đúng, mà còn là cách nó sử dụng – có thể những người dùng máy tính và YouTube hàng ngày còn không biết phím «K», «3» trên bàn phím là gì?
Nhìn cảnh tượng trước mắt như mơ hồ, nhóm làm lại theo Manus: phím «K» là phím tạm dừng, giúp Manus dừng lại để chụp ảnh từng khung; «3» là phím tắt, từ 0 đến 9 đại diện cho 0% đến 90% thanh tiến độ, «3» là 30%, giúp định vị chính xác giây đó trong video, rồi báo cho con người biết có bao nhiêu loại chim trong khung hình.
«Quá trình này khác hoàn toàn với chatbot truyền thống. Thứ nhất, nó có thể xem hình ảnh YouTube, chứ không phải phụ đề. Thứ hai, chúng tôi thậm chí phát hiện nó đang dùng phím tắt YouTube, rất sốc, và đã trả lời đúng câu hỏi». Tiêu Hồng cũng nhắc đến cảnh này trong cuộc phỏng vấn với Tencent Tech.
Đột nhiên họ nhận ra, Manus không chỉ giỏi lập trình hơn người, mà kiến thức về Web, App – những thứ con người dùng mỗi ngày – cũng vượt xa tưởng tượng. Là một AI toàn năng, nó có thể hiểu mọi phương tiện và công cụ, rồi chọn ra phương pháp tối ưu.
Điều này khiến nhóm một lần nữa cảm nhận sâu sắc «Less Structure, More Intelligence» – giảm thiểu giới hạn nhân tạo đặt lên AI, để AI phát huy qua quá trình tự tiến hóa, thay vì dạy nó từng bước.

Ở dưới cùng trang web chính thức của Manus, lặng lẽ ghi lại khám phá quan trọng nhất phía sau sản phẩm: «Less Structure, More intelligence».|Ảnh chụp: Manus
Đây là phần giải thích và suy ngẫm mở rộng của Phong (Peak), đồng sáng lập kiêm nhà khoa học trưởng của «Hiệu ứng Bướm», về nguyên lý đầu tiên quan trọng nhất phía sau Manus vào ngày sản phẩm ra mắt:
Khi dữ liệu đủ tốt, mô hình đủ thông minh, kiến trúc đủ linh hoạt, kỹ thuật đủ vững chắc, thì các khái niệm như Computer Use, Deep Research, Coding Agent sẽ không còn là tính năng sản phẩm, mà trở thành những năng lực xuất hiện tự nhiên.
Trở lại nguyên lý đầu tiên cũng khiến chúng tôi suy nghĩ lại hoàn toàn về hình thái sản phẩm: · Trình duyệt AI không phải là thêm AI vào trình duyệt, mà là tạo trình duyệt cho AI dùng; · Tìm kiếm AI không phải là truy xuất từ chỉ mục rồi tóm tắt, mà là để AI truy cập thông tin với quyền của người dùng; · Thao tác GUI không phải là chiếm quyền kiểm soát thiết bị người dùng, mà là để AI có máy ảo riêng; · Viết mã không phải là mục đích cuối cùng, mà là phương tiện phổ quát để giải quyết mọi vấn đề; · Tạo website không khó ở việc dựng khung, mà ở việc nội dung có ý nghĩa; · Attention không phải là tất cả những gì bạn cần, giải phóng attention của người dùng mới có thể định nghĩa lại DAU; · ····
Qua từng lần khám phá và thực hành «Less Structure, More intelligence», Manus đạt được hiệu quả vượt kỳ vọng, bao gồm điểm pass@1 trên GAIA benchmark vượt thành tích của OpenAI Deep Research ở cons@64; đồng thời trong thử nghiệm nội bộ, Manus cũng có thể trực tiếp xử lý 76% các kịch bản sản phẩm agent chuyên biệt trong Y Combinator W25.
03 «Agent có thể là vấn đề ‘đồng bộ hóa’, chứ không phải vấn đề năng lực mô hình nền tảng»
Hiện tại, giá trị của những nhận định này đang được thảo luận rộng rãi hơn:

Clement Delangue, người sáng lập và CEO Hugging Face, trên X bình luận rằng phát hiện của Peak đáng để suy ngẫm: năng lực agent không bị giới hạn bởi mô hình nền, mà giống như sự khác biệt giữa GPT-3 và InstructGPT (ChatGPT), là vấn đề đồng bộ hóa. Một số mô hình cơ sở mã nguồn mở được huấn luyện đơn giản thành dạng «dù câu hỏi phức tạp đến đâu cũng phải trả lời xong trong một lượt», nhưng đây là yêu cầu của chatbot. Chỉ cần điều chỉnh hậu huấn luyện lộ trình cho agent, đã tạo ra sự khác biệt lớn.|Ảnh chụp: X


Manus không sử dụng MCP (Model Context Protocol), mà để AI tự viết code gọi API, đảm nhiệm vô số tác vụ đuôi dài.|Ảnh chụp: X
Trong vài ngày qua, câu hỏi được đặt ra nhiều nhất về Manus là: Liệu «agent AI đa năng» có khả thi, ranh giới nằm ở đâu?
Theo Peak, vì tương tác của con người với thế giới khá chuẩn – có mắt, tay, tai – nếu định nghĩa rõ không gian hành động (action space), thì nên có thể nhúng một agent vào bất kỳ vai trò nào vốn do con người đảm nhiệm.
Nếu con người có thể dùng các công cụ để thực hiện thao tác sâu trong lĩnh vực chuyên biệt, thì một agent nếu có kiến thức đủ tốt, được huấn luyện phù hợp, và có giao diện tương tác tốt với thế giới, cũng nên có thể làm việc như con người, thậm chí dùng các sản phẩm SaaS. Ví dụ điển hình trên website Manus.im là trường hợp tìm nhà, thực chất là để AI dùng một sản phẩm SaaS chuyên biệt trong lĩnh vực bất động sản.
Anh cho rằng cần định nghĩa rõ ranh giới công cụ mà agent sử dụng, chứ không phải nhóm người nó phục vụ. Manus không mô phỏng một người làm việc cụ thể, không phân chia theo vai trò như lập trình viên, quản lý sản phẩm; mà mô phỏng một người có thể làm việc, mô phỏng cách một thực tập sinh làm việc.
Hệ thống đa agent (Multi-agent system) của Manus ám chỉ sự tách biệt giữa lập kế hoạch (Planning) và thực thi (Execution).
Ở bộ thực thi (Executor), Manus sử dụng Claude – hiện dẫn đầu về lập trình, lập kế hoạch dài hạn và giải quyết từng bước – đồng thời cũng dùng các mô hình Qwen để hậu huấn luyện.

Hôm qua, Manus cũng công bố hợp tác chiến lược với Thông Nghĩa Thiên Vấn của Alibaba, hướng tới hiện thực hóa đầy đủ chức năng của Manus trên nền tảng mô hình và điện toán quốc sản.|Nguồn ảnh: Manus
Ở phần lập kế hoạch (Planner), Manus đã đầu tư rất nhiều.
Bởi vì các API thương mại hoặc mô hình hiện có trên thị trường về bản chất được «đồng bộ hóa» cho chatbot, tức trong quá trình huấn luyện, dù người dùng đặt câu hỏi phức tạp đến đâu, mục tiêu tối ưu hóa vẫn là trả lời rõ ràng trong một phản hồi duy nhất – điều này hoàn toàn trái ngược với yêu cầu planning của agent.
Do đó, nếu dùng trực tiếp các mô hình hiện có cho agent, vì không «đồng bộ hóa», mô hình sẽ luôn vội vàng đưa ra kết quả «loạng choạng» trong một lượt hội thoại, giống như các bản tóm tắt bullet point.
«Phương pháp đồng bộ hóa phải khác, chúng tôi cho rằng cần dữ liệu riêng để huấn luyện đặc biệt», Tiêu Hồng nói.
Tháng 10 năm ngoái, Peak cũng từng ghi lại trên Zhihu hành trình thử tái hiện mô hình Steiner – một dự án thú vị của OpenAI o1 – nhưng thất bại, thực tế đây chính là nghiên cứu tiền khả thi cho phần lập kế hoạch từng bước của Manus.
Tổng thể, Manus đang mô phỏng một con người làm việc – đây là định nghĩa sản phẩm của nhóm về Manus như một trợ lý AI đa năng. Còn về ranh giới, nhóm có lẽ vẫn đang khám phá, cần thêm nhiều ví dụ sử dụng thực tế.
Trong cuộc phỏng vấn của Tencent Tech trước khi Manus ra mắt, Tiêu Hồng đã đề cập suy nghĩ ban đầu về tính phổ quát của Manus: «Một vấn đề cốt lõi, hay nói cách khác là trách nhiệm quan trọng của một product manager, là kiểm soát kỳ vọng người dùng. Giả sử nó có thể làm mọi việc trên thế giới, ví dụ: Làm sao để kiếm 1 triệu USD? Đây vốn không phải việc một agent nên thực hiện. Nhưng nếu chúng ta đưa ra nhiều ví dụ cụ thể hơn, giúp người dùng có kỳ vọng hợp lý, họ sẽ dùng thuận lợi hơn».
04 «Vỏ có vỏ dùng», đội ngũ am hiểu nhất về «vỏ»
Ngày 27 tháng 2, rạng sáng, khi thấy bảng xếp hạng sản phẩm Manus.im vừa ra, Trương Đào – cộng sự phụ trách sản phẩm của Manus – và nhà khoa học trưởng Quý Dật Siêu (Peak) đều rơi nước mắt. Manus đạt điểm trên GAIA Benchmark vượt Deep Research của OpenAI, và đạt được thành tích bất ngờ này với chi phí chỉ khoảng 1/10 (2 USD/nhiệm vụ) so với OpenAI khi thi đấu.

Nguồn ảnh: Manus.im
Một đội ngũ vài chục người, giữa lúc toàn ngành đã đồng thuận về cuộc đua agent, trở thành một trong những nhóm đầu tiên ra mắt sản phẩm agent đa năng, với điểm khác biệt trong kỹ thuật sản phẩm, trải nghiệm tương tác frontend.
Phản hồi tích cực từ việc làm được điều gì đó vượt trội hơn tất cả. Với đội ngũ khởi nghiệp, không có động lực nào tốt hơn thế. Nhưng trước đó, Manus đã hình thành như thế nào? Vì sao lại là đội ngũ này làm ra?
«Khả năng mô hình hiện tại đủ để hoàn thành những nhiệm vụ phức tạp, nhiều bước. Chỉ là chưa có sản phẩm nào như vậy, nên mọi người chưa cảm nhận được». Tiêu Hồng từng chia sẻ nhận định này trong phỏng vấn với Tencent Tech, có thể dùng để lý giải câu hỏi này.
Đồng thời, «đội ngũ có cơ hội thử làm sản phẩm Agent không nhiều. Bởi vì cần rất nhiều năng lực tổng hợp. Họ phải từng làm chatbot, từng làm AI lập trình, từng làm trình duyệt (vì cần gọi trình duyệt), và có cảm nhận tốt về giới hạn LLM – hiện nay đã phát triển đến đâu, tiếp theo sẽ ra sao. Những công ty có đủ các năng lực này không nhiều, và những công ty có thì có thể đang tập trung vào một việc cụ thể. Chúng tôi may mắn có vài thành viên vừa có thời gian cùng nhau làm việc này».
«May mắn».
-
Trong thời điểm phù hợp, phát hiện ra khả năng mô hình đã đạt đến mức có thể làm agent, mà không nhất thiết phải chờ một mô hình end-to-end lớn như Operator;
-
Cũng may mắn phát hiện ra vấn đề nằm ở «đồng bộ hóa»;
-
Cũng may mắn từng làm tất cả các chức năng mở rộng từ chatbot và trình duyệt AI;
-
Đồng thời, vì luôn làm các sản phẩm ứng dụng LLM kiểu «vỏ» nên có cảm nhận nhạy bén với LLM;
Đội ngũ «Hiệu ứng Bướm» hội tụ đủ mọi yếu tố để tạo ra một agent đa năng ở thời điểm hiện tại, nên giờ đây có một sản phẩm agent đa năng với mức độ hoàn thiện cao hơn mặt bằng chung.
Khi được hỏi về khoảnh khắc then chốt quyết định làm Manus, Peak kể thêm chi tiết: «khởi nghiệp thực ra không có cú «pivot sạch sẽ» nào cả, mọi thứ liền mạch, không ranh giới rõ ràng».
«Khi làm một sản phẩm, chúng tôi cũng thường xuyên theo dõi tình hình bên ngoài». Lúc đó có vài điều: khi làm trình duyệt, họ từng dùng mô hình phía client, sau đó phát hiện trình duyệt cần rất nhiều tính năng khác nhau, và trong quá trình làm, họ nhận ra tốc độ cải thiện mô hình nền đang nhanh lên, mạnh đến mức khoảng cách giữa mô hình và agent có thể chỉ là vấn đề «đồng bộ hóa». Dù bên ngoài có thể nghĩ LLM đang dần bão hòa, chạm trần.
Cùng lúc, bên ngoài cũng đang thay đổi. Đầu năm ngoái, Cursor bắt đầu nổi, rồi đến Windsurf và Devin. Tất cả đều thuộc cùng một mạch phát triển: agent bùng nổ trong lĩnh vực lập trình, theo trình tự gia tăng. Cursor là copilot cho lập trình viên, nâng cao hiệu suất; từ Windsurf bắt đầu có tự động hóa quy trình, tăng khả năng tự động trên máy cục bộ; Devin lại đạt đến đỉnh cao mới.
Động thái của các quỹ VC cũng nhất quán: trong hai năm gần đây, YC đầu tư vào hai loại công ty – một là trình duyệt trên đám mây như Browser base; hai là các máy ảo AI nhẹ như e2b.
Điều này cho thấy «hạ tầng mô hình đang nhanh chóng trưởng thành, hạ tầng Infra cũng vậy, cộng thêm việc các sản phẩm bên ngoài ngày càng được chấp nhận, chúng tôi thấy đây là hướng đáng để dốc toàn lực. Đây là quá trình rất dần dần, mượt mà, cộng thêm tích lũy từ làm trình duyệt như hạ tầng chromium có thể chuyển đổi liền mạch, cũng là lý do chúng tôi dám làm trình duyệt trên đám mây».
Tóm lại, cảm nhận nhạy bén và tích lũy kinh nghiệm từ việc làm «vỏ» đã cùng nhau tạo nên Manus. Nhiều tình huống của Monica cần hậu huấn luyện mô hình, đồng thời trong thực tiễn trình duyệt AI củng cố bài học quan trọng nhất «less structure, more intelligence», nhận ra mô hình đã đủ khả năng làm agent, vấn đề nằm ở đồng bộ hóa. Sau đó là 3 tháng tiến hóa thần tốc của Manus.
Trước đây, đội ngũ «Hiệu ứng Bướm» từng bị nghi ngờ về giá trị của «vỏ», khi không tự phát triển mô hình lớn, mà tích hợp các mô hình hiện có để tạo ra Monica, gom các chức năng chat, tìm kiếm, đọc, viết, dịch lại với nhau, đồng thời tích hợp nhiều kịch bản thực hiện nhiệm vụ qua từng API, cuối năm lượng người dùng đạt hàng chục triệu.
Bây giờ, khi DouBao, Kuai, YuanBao đều tích cực quảng bá sản phẩm kiểu Monica của riêng mình, khi một đội nhỏ lại tận dụng công nghệ hiện có để tạo ra agent tiêu dùng đa năng đầu tiên, đã đến lúc cần hiểu lại từ «vỏ».
«Vỏ» và «làm vỏ» thực chất là gì?
Theo Tiêu Hồng, mọi đột phá đều đến từ mô hình, về cơ bản là mô hình dẫn dắt, đi trước. «Vỏ» là cách thể hiện điểm đổi mới công nghệ của mô hình theo cách người dùng cảm nhận được, đóng gói khả năng đổi mới thành hình thức dễ cảm nhận nhất.
Xuất phát từ định nghĩa này, DeepSeek App (bao gồm hiển thị dây chuyền suy nghĩ) là «vỏ» của DeepSeek-R1, Cursor là «vỏ» của Anthropic Sonnet 3.5, Perplexity là «vỏ» của GPT-4, ChatGPT là «vỏ» của InstructGPT.
Khi khả năng mô hình nhanh chóng tiến hóa, «cái vỏ» cũng cần tiến hóa. Sau mỗi lần tiến hóa mô hình, thậm chí không cần chính hãng, mà một nhà sản xuất bên thứ ba có thể thể hiện giá trị cảm nhận được cho người dùng. Như Cursor đã thể hiện giá trị cảm nhận được của Claude 3.5 Sonnet.
Ngày 5 tháng 3, đúng dịp kỷ niệm 2 năm ra mắt Monica.im, tại sao lại chính là vài chục người này tạo ra trải nghiệm sản phẩm vượt cả Deep Research và OpenAI Operator? Câu trả lời nằm ở cách hiểu và thực hành về «vỏ».
Làm thế nào để tạo ra «vỏ» tốt nhất cho mô hình agent mới?
Là người xây dựng Manus, Trương Đào cho rằng: «Nhìn từ backend về kiến trúc tổng thể, chúng tôi thấy mỗi nơi đều còn rất nhiều việc chưa hoàn thành, và mỗi nơi đó đều là điểm then chốt, làm thay đổi hoàn toàn diện mạo sản phẩm».
Theo nhóm, lợi thế quan trọng nhất là tốc độ đổi mới (pace of Innovation). Dù ứng dụng hay mô hình, hiện nay đều đã ở trạng thái tương đối bão hòa, năng lực cốt lõi duy nhất còn lại là chạy nhanh, dù các yếu tố như «vòng xoáy dữ liệu», «hiệu ứng mạng» vẫn chưa được chứng minh.
«Trong một lĩnh vực hoàn toàn mới, mọi thứ chưa định hình, chưa biết rõ, điều quan trọng nhất là tốc độ đổi mới, là thử nghiệm, mạo hiểm ở nhiều hướng khác nhau để nhanh chóng tìm ra con đường đúng». Và đội ngũ Manus đủ linh hoạt về triết lý quản lý, cấu trúc tổ chức, quy trình sản xuất. Khi cơ hội mới xuất hiện, họ có thể huy động toàn bộ nguồn lực trong công ty với tốc độ ra quyết định cực cao, và thích nghi với phản hồi từ sai lầm.

Từ trái sang: Nhà khoa học trưởng Peak, CEO Tiêu Hồng, cộng sự sản phẩm Trương Đào của «Hiệu ứng Bướm»|Nguồn ảnh: Mạng
Về kỳ vọng với Manus, Tiêu Hồng cho rằng «dù chỉ có cửa sổ cơ hội, bạn cũng đáng để thử». Năm qua, suy nghĩ của anh cũng thay đổi mạnh mẽ, ví dụ như hiện tại anh cho rằng «khi nhận ra mình đi trước, hãy càng táo bạo hơn, siêu táo bạo. Nhìn lại, thấy Monica năm 23 chưa đủ táo bạo». «Nếu bạn biết mình đang đổi mới, đang dẫn đầu, bạn nên táo bạo».
Chưa biết Manus có thể mang lại cho Tiêu Hồng và đội ngũ trải nghiệm và bước nhảy từ 1 đến N hay không, nhưng đội ngũ am hiểu nhất về «vỏ» này tin vào việc sáng tạo bằng cả tâm trí và hành động, tin vào hiệu ứng bướm từ sáng tạo – Manus bắt nguồn từ một khẩu hiệu của MIT: Mens et manus, nhấn mạnh sự kết hợp giữa trí tuệ và hành động. Không chỉ học, mà còn phải làm, tạo tác động đến thế giới thực, mới là tri thức thực sự.
Trong tương lai, khi ngày càng nhiều nền tảng phía sau Manus được mở nguồn, hiệu ứng bướm ở phạm vi rộng hơn sẽ tiếp tục được lan tỏa.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News














