
Thời khắc "GPT" của AI Agent, Manus làm cả giới AI choáng váng
Tuyển chọn TechFlowTuyển chọn TechFlow

Thời khắc "GPT" của AI Agent, Manus làm cả giới AI choáng váng
Gần gũi người dùng nhất, tạo ra AI Agent tốt nhất.
Tác giả: shiyun, Trương Dũng Nghị

Năm 2025 là năm đầu tiên của AI Agent —— câu nói này đã được chứng minh đúng vào rạng sáng ngày 6 tháng 3 theo giờ Bắc Kinh.
«Sau DeepSeek, lại một đêm không ngủ nữa trong giới công nghệ.»
Nhiều người dùng bình luận như vậy trên mạng xã hội.
Mọi người thức trắng đêm chỉ để chờ một mã mời sử dụng sản phẩm —— đó chính là «Manus», sản phẩm AI Agent toàn cầu đầu tiên do Monica.im phát triển.
Theo giới thiệu từ nhóm phát triển, «Manus» là một đại lý AI thực sự tự chủ, có thể giải quyết nhiều loại nhiệm vụ phức tạp và đa dạng. Khác với trợ lý AI truyền thống, Manus không chỉ cung cấp lời khuyên hay câu trả lời, mà còn trực tiếp giao kết quả hoàn chỉnh của nhiệm vụ.

Video giới thiệu Manus chỉ dài 4 phút nhưng sức ảnh hưởng rất lớn
Nguồn ảnh: Monica.im
Giống như ý nghĩa tên gọi «Manus», trong tiếng Latinh nó tượng trưng cho «bàn tay». Nghĩa là tri thức không chỉ nằm trong đầu, mà còn phải có thể hành động bằng tay. Đây chính là bước tiến bản chất giữa Agent và các sản phẩm AI Bot (trợ lý trò chuyện).
Manus mạnh ở điểm nào? Cách trực quan nhất là xem những ví dụ sử dụng được trình bày trên trang web chính thức và bởi người dùng tự chia sẻ. Dưới đây là một số trường hợp được Geeker Park tổng hợp:
Lên kế hoạch du lịch: Không chỉ tích hợp thông tin du lịch, mà còn tạo sổ tay du lịch tùy chỉnh cho người dùng. Ví dụ, lập kế hoạch du lịch Nhật Bản vào tháng Tư, đưa ra đề xuất cá nhân hóa và sổ tay chi tiết.
Phân tích cổ phiếu: Thực hiện phân tích chuyên sâu về cổ phiếu, thiết kế bảng điều khiển trực quan hấp dẫn để hiển thị toàn diện các thông tin phân tích cổ phiếu. Ví dụ, phân tích sâu về cổ phiếu Tesla, tạo bảng điều khiển hình ảnh hóa.
Tạo nội dung giáo dục: Tạo tài liệu trình chiếu video cho giáo viên trung học, giải thích các khái niệm phức tạp như định lý động lượng, giúp giáo viên giảng dạy hiệu quả hơn.
So sánh bảo hiểm: Tạo bảng so sánh rõ ràng các gói bảo hiểm, đưa ra đề xuất quyết định tốt nhất, hỗ trợ người dùng chọn sản phẩm bảo hiểm phù hợp nhất.
Mua sắm nhà cung cấp: Tiến hành nghiên cứu kỹ lưỡng trên toàn mạng, tìm nhà cung cấp phù hợp nhất với nhu cầu người dùng, phục vụ người dùng như một đại lý thực sự công bằng.
Phân tích báo cáo tài chính: Thông qua nghiên cứu và phân tích dữ liệu, nắm bắt sự thay đổi cảm xúc của thị trường đối với một công ty cụ thể (như Amazon), cung cấp phân tích cảm xúc thị trường trong bốn quý vừa qua.
Liệt kê danh sách startup: Truy cập các trang web liên quan để nhận diện các công ty đạt tiêu chuẩn, sau đó sắp xếp thành bảng. Ví dụ, tổng hợp danh sách tất cả các công ty B2B thuộc lô YC W25.
Phân tích hoạt động cửa hàng trực tuyến: Phân tích dữ liệu bán hàng trên cửa hàng Amazon, cung cấp các thông tin khả thi, hình ảnh hóa chi tiết và chiến lược tùy chỉnh, giúp cải thiện hiệu suất bán hàng.
Khi Agent đi qua một chuỗi suy luận dài và gọi các công cụ, cuối cùng đưa ra kết quả hoàn chỉnh, chuyên nghiệp đến mức người dùng bắt đầu thán phục: «Thật sự có thể giúp con người làm việc rồi».
Theo thông tin từ trang web chính thức, trong bài kiểm tra chuẩn GAIA (đánh giá khả năng trợ lý AI tổng quát giải quyết các vấn đề thực tế), Manus đã đạt được thành tích tiên tiến nhất mới (SOTA) ở cả ba cấp độ khó.
Tóm lại trong một câu —— Điều Manus muốn làm chính là trở thành «người đại diện» thực sự của bạn trong thế giới số. Và nó đã làm được.
Đúng như bạn nghĩ, Manus ra mắt vào rạng sáng hôm đó đã khiến cả cộng đồng AI thức giấc!
01 Manus, «người đại diện số» của bạn
Trước hết, khác biệt lớn nhất về trải nghiệm của Manus so với LLM trước đây:
Nó nhấn mạnh khả năng giao trực tiếp kết quả cuối cùng, chứ không chỉ đưa ra một «câu trả lời» đơn thuần.
Hiện tại Manus sử dụng kiến trúc Multiple Agent, cách vận hành tương tự Computer Use mà Anthropic từng công bố, hoàn toàn chạy trên máy ảo độc lập. Đồng thời có thể gọi các công cụ khác nhau trong môi trường ảo —— viết và thực thi mã, duyệt web, thao tác ứng dụng, v.v., trực tiếp giao kết quả hoàn chỉnh.
Trong video chính thức, ba ví dụ về công việc thực tế mà Manus hoàn thành được giới thiệu:
Nhiệm vụ đầu tiên là sàng lọc hồ sơ xin việc.
Từ 15 hồ sơ, đề xuất những ứng viên phù hợp cho vị trí kỹ sư thuật toán học tăng cường, đồng thời xếp hạng họ theo chuyên môn học tăng cường.
Trong demo này, bạn thậm chí không cần giải nén file, tải lên từng hồ sơ thủ công. Lúc này Manus đã thể hiện mặt giống như một «thực tập sinh»: tự giải nén file, đọc từng trang hồ sơ, đồng thời ghi lại các thông tin quan trọng.

Manus như một thực tập sinh, tự hiểu mệnh lệnh ẩn «giải nén file đống mà sếp ném tới»
Nguồn ảnh: Geeker Park
Kết quả do Manus đưa ra không chỉ có đề xuất xếp hạng tự động, mà còn phân loại ứng viên theo các tiêu chí quan trọng như kinh nghiệm làm việc. Sau khi nhận được yêu cầu người dùng muốn trình bày dưới dạng bảng Excel, Manus còn có thể tự động tạo bảng tương ứng bằng cách viết script Python tại chỗ.
Manus thậm chí còn có thể ghi nhớ, trong quá trình thực hiện, thông tin như «người dùng thích nhận kết quả dưới dạng bảng», lần sau xử lý nhiệm vụ tương tự sẽ ưu tiên trình bày dưới dạng bảng.

Manus có thể ghi nhớ sở thích của người dùng trong quy trình tạo nội dung
Nguồn ảnh: Geeker Park
Ví dụ thứ hai, được thiết kế riêng cho người Trung Quốc, là lựa chọn bất động sản.
Người dùng trong ví dụ muốn mua nhà ở New York, yêu cầu bao gồm môi trường khu dân cư an toàn, tỷ lệ tội phạm thấp, giáo dục tiểu học và trung học chất lượng cao —— và tất nhiên cả ngân sách, đủ để chi trả trong điều kiện thu nhập cố định hàng tháng.
Trong nhu cầu này, AI Manus phân chia nhiệm vụ phức tạp thành danh sách việc cần làm: nghiên cứu khu dân cư an toàn, xác định trường học chất lượng, tính toán ngân sách, tìm kiếm bất động sản. Qua tìm kiếm mạng, đọc kỹ các bài viết về khu dân cư an toàn nhất ở New York, thu thập thông tin liên quan.
Sau đó, Manus viết chương trình Python để tính toán ngân sách mua nhà dựa trên thu nhập người dùng. Kết hợp thông tin giá nhà trên các trang bất động sản, lọc danh sách nhà theo phạm vi ngân sách.

Manus có thể tự động tìm kiếm và loại bỏ các căn nhà không đáp ứng yêu cầu người dùng
Nguồn ảnh: Geeker Park
Cuối cùng, Manus tổng hợp tất cả thông tin thu thập được, viết báo cáo chi tiết bao gồm phân tích an ninh khu vực, đánh giá chất lượng trường học, phân tích ngân sách, danh sách nhà đề xuất và các liên kết tài nguyên liên quan —— giống hệt một môi giới bất động sản chuyên nghiệp. Hơn nữa, do Manus mang thuộc tính «hoàn toàn vì lợi ích người dùng», trải nghiệm sử dụng thậm chí còn tốt hơn.
Trong ví dụ cuối cùng, Manus thể hiện khả năng phân tích giá cổ phiếu.
Nhiệm vụ đưa ra là phân tích mối tương quan giá cổ phiếu của Nvidia, Marvell Technology và TSMC trong ba năm qua: ai cũng biết ba cổ phiếu này có liên hệ chặt chẽ, nhưng đối với người dùng mới, rất khó nhanh chóng làm rõ mối quan hệ nhân quả.
Cách làm của Manus rất giống một môi giới chứng khoán thực thụ: trước tiên truy cập các trang web thông tin như Yahoo Finance qua API để lấy dữ liệu lịch sử cổ phiếu, đồng thời kiểm tra chéo độ chính xác dữ liệu, tránh bị sai lệch do nguồn thông tin đơn lẻ, ảnh hưởng nghiêm trọng đến kết quả cuối cùng.
Trong ví dụ này, Manus cũng sử dụng khả năng viết mã Python, phân tích dữ liệu và trực quan hóa, đồng thời đưa vào các công cụ chuyên môn tài chính để phân tích, cuối cùng phản hồi mối quan hệ nhân quả cho người dùng qua biểu đồ trực quan hóa kết hợp báo cáo phân tích tổng hợp chi tiết —— đúng như công việc thường ngày của một «thực tập sinh» trong lĩnh vực tài chính.
Không chỉ vậy, trang web chính thức của Manus còn cho thấy hơn mười tình huống sử dụng: dùng trực tiếp Manus để sắp xếp lịch trình, đề xuất lộ trình du lịch cá nhân hóa, hoặc để nó học sử dụng các công cụ phức tạp, tự động hóa các công việc thường ngày.
Trong quá trình này, điều thực sự khiến Manus nổi bật so với các công cụ trước đây là khả năng tự lập kế hoạch, đảm bảo thực hiện nhiệm vụ.
Khả năng tự học còn khiến logic nâng cao năng lực của Manus giống con người thật hơn —— dù ở giai đoạn hiện tại, nó có thể chưa đạt đến trình độ chuyên gia trong một lĩnh vực cụ thể, nhưng tiềm năng đã rõ ràng.
Cùng với việc bổ sung khả năng tự học, tính linh hoạt của AI Agent được nâng cao đáng kể. Trong các thử nghiệm thực tế của người dùng với Manus, bạn thậm chí có thể mô tả nội dung trong một khung hình video, Manus cuối cùng có thể dựa trên thông tin tương ứng, vượt qua giới hạn của công cụ tìm kiếm đối với nội dung nền tảng, tìm chính xác liên kết một video ngắn Douyin.
Do phiên bản hiện tại của Manus hoàn toàn chạy trên đám mây theo cơ chế bất đồng bộ, nên thực tế năng lực của Manus không bị giới hạn bởi hình thái nền tảng đầu cuối bạn sử dụng hay các yếu tố như năng lực tính toán —— người dùng thậm chí có thể ra lệnh cho Manus rồi tạm tắt máy tính, khi Manus hoàn thành nhiệm vụ, sẽ tự động thông báo kết quả cho bạn.
Logic vận hành này cũng rất quen thuộc —— giống như một người sau khi tan ca, nhắn WeChat cho thực tập sinh «sắp xếp xong tài liệu gửi tôi». Chỉ khác là, giờ đây thực tập sinh này thực sự có thể phản hồi 24/7, và bạn không cần lo lắng anh ta sẽ «cải tổ văn phòng».
02 Đa tác nhân + tự kiểm tra, vận hành luồng AI Agent
Từ những ví dụ trên, dễ thấy điểm mạnh thực sự của Manus không phải là khái niệm «AI Agent» đã xuất hiện trong Computer Use, mà là khả năng «mô phỏng cách làm việc của con người».
So với «thực hiện tính toán», logic làm việc của Manus giống hơn với «suy nghĩ và thực hiện lệnh». Nó không làm điều gì mà con người hiện tại thực sự không thể làm; đó cũng là lý do một số người đã trải nghiệm phiên bản hiện tại của Manus miêu tả nó như một «thực tập sinh».
Trang web chính thức của Manus cho thấy nhiều nhiệm vụ nó có thể hoàn thành, trong đó có một ví dụ minh họa cách sử dụng Manus trong kinh doanh B2B: nhanh chóng và chính xác khớp nhu cầu đặt hàng của bạn với các nhà cung cấp toàn cầu.
Trong các sản phẩm thông thường cho nhu cầu tương tự, tích hợp thông tin doanh nghiệp chuỗi cung ứng toàn cầu trong nền tảng để giúp người dùng khớp nhà cung cấp/người cần hàng là logic phổ biến trong ngành. Nhưng trong ví dụ của Manus, bạn thấy cách thực hiện hoàn toàn khác.
AI Manus sử dụng một kiến trúc gọi là «Multiple Agent», chạy trên máy ảo độc lập. Thông qua cơ chế phân công và hợp tác giữa tác nhân lập kế hoạch, tác nhân thực thi, tác nhân xác minh, để nâng cao đáng kể hiệu quả xử lý nhiệm vụ phức tạp, đồng thời rút ngắn thời gian phản hồi nhờ tính toán song song.
Trong kiến trúc này, mỗi tác nhân có thể dựa trên mô hình ngôn ngữ độc lập hoặc mô hình học tăng cường, giao tiếp với nhau qua API hoặc hàng đợi tin nhắn. Mỗi nhiệm vụ cũng chạy trong môi trường sandbox, tránh ảnh hưởng sang nhiệm vụ khác, đồng thời hỗ trợ mở rộng đám mây. Mỗi mô hình độc lập đều có thể mô phỏng quy trình xử lý nhiệm vụ của con người, ví dụ như trước tiên suy nghĩ và lập kế hoạch, hiểu lệnh phức tạp và phân tách thành các bước thực thi, sau đó gọi công cụ phù hợp.
Nói cách khác, thông qua kiến trúc đa tác nhân của Manus, nó giống như có nhiều trợ lý hỗ trợ nhau, lần lượt hoàn thành các công việc như truy xuất tài nguyên, kết nối, xác minh tính hiệu lực thông tin, v.v., để giúp bạn hoàn thành toàn bộ quy trình làm việc —— thực tế không chỉ giống như bạn thuê một «thực tập sinh», mà còn giống như bạn trực tiếp trở thành một «trưởng phòng phiên bản thu nhỏ».
Trong ví dụ kinh doanh B2B, Manus sử dụng khả năng viết và thực thi mã, cùng với crawler web, tự động tìm kiếm trên biển cả Internet, theo nhu cầu của bạn, tìm nguồn hàng phù hợp nhất về chất lượng sản phẩm, giá cả, năng lực giao hàng. Không chỉ có thể hiển thị kết luận trực quan dưới dạng biểu đồ trước mặt bạn, mà còn đưa ra đề xuất hành động chi tiết hơn cho các dữ liệu này.

Manus hoàn thành nhu cầu trong tình huống B2B, có lẽ còn tiện dụng hơn công cụ tích hợp sẵn trong nền tảng đơn lẻ
Nguồn ảnh: Geeker Park
Về việc đội ngũ Monica sử dụng công nghệ gì và thực hiện hiệu ứng video như thế nào, theo thông tin, nhóm có thể sẽ tiết lộ vào ngày 6 tháng 3 theo giờ Bắc Kinh.
03 «Ghép nối» cực hạn, chính là bùng nổ
Monica.im phía sau Manus là công ty gì?
Monica là một trợ lý AI All-in-One, hình thái sản phẩm từ tiện ích mở rộng trình duyệt dần mở rộng sang App, phiên bản web. Trường hợp sử dụng phổ biến là khi người dùng mở biểu tượng nhỏ của nó trong trình duyệt, có thể trực tiếp sử dụng các mô hình chính được tích hợp. Nhờ hiểu chính xác nhu cầu người dùng trong các tình huống cụ thể, Monica đã hái được «quả ngọt treo thấp» của mô hình lớn.
Người sáng lập Tiêu Hoằng (biệt danh Tiểu Hồng, tên tiếng Anh Red) là một doanh nhân trẻ tuổi, sinh năm 1992, tốt nghiệp Đại học Khoa học và Công nghệ Hoa Trung. Năm 2015, sau khi tốt nghiệp ông khởi nghiệp, những lần khởi nghiệp ban đầu không thuận lợi (ví dụ như mạng xã hội trong trường, chợ đồ cũ). Năm 2016, ông khởi nghiệp cung cấp công cụ biên tập và phân tích dữ liệu cho người vận hành公众号 WeChat, thu hút hàng triệu người dùng, đạt được lợi nhuận, cuối cùng sản phẩm được bán cho một công ty kỳ lân vào năm 2020.
Đến năm 2022, sau làn sóng mô hình lớn, ông chính thức sáng lập Monica, tập trung vào thị trường nước ngoài, thông qua sản phẩm dành cho nhà phát triển độc lập ChatGPT for Google, nhanh chóng hoàn thành khởi động lạnh.
Năm 2024, ngay khi GPT-4o, Claude 3.5, OpenAI o1 series ra mắt, Monica đã cho phép người dùng tiếp cận các mô hình SOTA mới nhất. Cùng với việc tích hợp mô hình mới, các chức năng như tìm kiếm chuyên nghiệp, DIY Bot, Artifacts viết chương trình nhỏ, chức năng ghi nhớ của Monica cũng được người dùng yêu thích. Ngoài ra, Monica thể hiện hình thái và chức năng tương tác khác nhau trong các trang web như YouTube, Twitter, Gmail, The Information, v.v., để phù hợp với nhu cầu người dùng trong từng tình huống cụ thể, cập nhật trải nghiệm AI cá nhân hóa cho hàng trăm trang web.
Năm 2024, số lượng người dùng Monica tăng gấp đôi, đạt 10 triệu. Đồng thời duy trì lợi nhuận đáng kể, đứng đầu trong các sản phẩm cùng loại ở nước ngoài.
Thành tích mạnh mẽ của Monica xác nhận một điều:
Ghép nối đến cực hạn, vừa là TPF, vừa là PMF, cuối cùng đều dẫn đến giá trị cho người dùng.

Trang chủ Monica
Nguồn ảnh: Monica
Manus có lẽ kế thừa tư duy này của đội ngũ Monica —— Theo phỏng vấn của phóng viên Trương Tiểu Quân, Tiêu Hoằng nói rằng sản phẩm không thể chỉ có một hình thái trợ lý trò chuyện, Agent sẽ là hình thái mới, cần sản phẩm mới để tiếp nhận.
Ông lấy cảm hứng từ các sản phẩm lập trình AI là cursor và Devin. Theo tìm hiểu của Geeker Park, cái trước chủ yếu là chế độ copilot, cái sau là chế độ autopilot, cái sau phù hợp hơn với nhu cầu con người. Agent cũng nên giống Devin, hướng tới đại chúng, thực sự do AI chủ đạo thực hiện. Nhưng vấn đề trước đây là mô hình chưa đủ thông minh.
Nhưng việc dựa trên năng lực mô hình hiện có để đóng gói dịch vụ theo tình huống, có lẽ chính là thế mạnh của đội ngũ Monica. Tiêu Hoằng nói, hiện tại ít nhóm sản phẩm Agent, vì nó đòi hỏi nhiều năng lực tổng hợp, ví dụ như nhóm phải từng làm chatbot, lập trình AI, liên quan đến trình duyệt (vì đều chạy trên trình duyệt), đồng thời phải có cảm nhận tốt về giới hạn mô hình —— hiện tại phát triển đến mức nào, sắp tới sẽ phát triển ra sao, v.v.
«Công ty đồng thời sở hữu các năng lực này không nhiều, và công ty có những năng lực này có thể đang tập trung vào một công việc cụ thể, nhưng chúng tôi may mắn có đồng nghiệp vừa có thời gian cùng nhau làm việc này.» Ông nói.
Tại sao lại là Monica làm được? Ông tổng kết: «Thứ nhất, tôi nghĩ chúng tôi khá may mắn. Thứ hai, ở mức độ nào đó, nếu bây giờ mọi người đều đang làm reasoning, có phải đã tạo thêm thời gian cho các công ty khởi nghiệp? Khả năng dư thừa của mô hình còn có thể phát triển đến đâu?»
Ông cho rằng, hiện tại Agent vẫn ở giai đoạn đầu. Một là Agent hiện tại vẫn đang trong giai đoạn lập kế hoạch, chưa đến giai đoạn thực thi trong thế giới vật lý; hai là năng lực mô hình lớn vẫn đang phát triển, mọi thứ vẫn chưa thể đoán trước.
«Tôi chắc chắn không biết Agent có thể được làm theo cách này, đó là một điều chưa biết.» Ông nói.
Đáng suy ngẫm là, Monica «không biết cách làm Agent» hiện tại lại tạo ra một sản phẩm khiến cả cộng đồng AI bùng nổ.
Manus có thể chưa phải Agent AI cuối cùng, nhưng nó không nghi ngờ gì đã nâng kỳ vọng của con người về AI lên một cấp độ mới, sau khi DeeoSeek gây sốt.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News











