
Toàn văn cuộc trò chuyện mới nhất của Manus: Thử nghiệm thanh toán Agent, doanh thu RRR của công ty gần 100 triệu USD
Tuyển chọn TechFlowTuyển chọn TechFlow

Toàn văn cuộc trò chuyện mới nhất của Manus: Thử nghiệm thanh toán Agent, doanh thu RRR của công ty gần 100 triệu USD
Thời đại của Agent 만 vật, Manus lại nhanh hơn một bước.
Tác giả|Li Yuan
Biên tập|Jingyu

Manus chuyển đến Singapore, nhưng suy nghĩ về Agent AI tổng quát vẫn không ngừng nghỉ.
Tại sự kiện Stripe Tour được tổ chức ở Singapore hôm nay, nhà đồng sáng lập và nhà khoa học trưởng của Manus – Ji Yichao (Peak) đã có buổi trao đổi cùng Paul Harapin, Giám đốc Doanh thu khu vực châu Á Thái Bình Dương và Nhật Bản của Stripe.
Trong buổi nói chuyện, Manus AI tiết lộ dữ liệu kinh doanh gần đây: Tỷ lệ doanh thu vận hành (RRR - Revenue Run Rate) đã đạt 90 triệu USD, sắp chóng vánh tiến tới mức 100 triệu.
Shawn Xiao từ Manus AI cũng đặc biệt đăng trên Jike rằng, Revenue Run Rate là doanh thu tháng hiện tại nhân 12, không bằng Cash Income. Nhiều sản phẩm AI cung cấp tùy chọn thanh toán theo năm, số tiền này chỉ tính là khoản tiền gửi trước chứ chưa ghi nhận thành doanh thu. “Nếu chúng tôi công bố theo cách [sai lầm] này, có thể tính ra con số lớn hơn 120 triệu USD.” Shawn cho biết.
Bên cạnh dữ liệu kinh doanh, Ji Yichao còn chia sẻ cách đội ngũ Manus đang suy nghĩ về bước tiếp theo của Agent tổng quát, cũng như sự khác biệt thực sự giữa AI Agent và AGI trong tương lai.
“Hiện giờ hầu như mọi người gọi mọi thứ là Agent. Ví dụ một chiếc micro, có người sẽ gọi nó là ‘Agent thu âm có cảm biến môi trường’. Ji Yichao đùa.
Anh ấy cũng đưa ra hai hướng chính để mở rộng năng lực của Agent tổng quát: Thứ nhất, dùng nhiều Agent phối hợp để mở rộng quy mô thực thi (ví dụ tạo ra hàng trăm Agent con song song trong nghiên cứu quy mô lớn); Thứ hai, mở rộng "mặt công cụ" cho Agent, không giới hạn khả năng vào vài API cố định mà giống như lập trình viên, có thể gọi hệ sinh thái mã nguồn mở, cài đặt thư viện, thậm chí tự kiểm tra hình ảnh sau trực quan hóa rồi điều chỉnh lại.
Ji Yichao còn nhấn mạnh rằng thế giới kỹ thuật số ngày nay vẫn được xây dựng theo khuôn mẫu “dành cho con người dùng” — các trang web không có API, CAPTCHA, các quy trình bị “trò chơi hóa” tạo nên rất nhiều ma sát, điểm nghẽn nằm ở hệ sinh thái và ràng buộc thể chế, chứ không phải trí tuệ mô hình.
Cũng vì lý do này, Manus tham gia hoạt động của Stripe: Hai bên đang thúc đẩy việc hoàn tất thanh toán bên trong Agent, nối liền vòng khép kín “nghiên cứu – ra quyết định – đặt hàng/thanh toán”, dùng sự hợp tác cơ sở hạ tầng để loại bỏ ma sát trên thế giới.
Dưới đây là tinh hoa cuộc đối thoại, đã được Geeker Park biên tập và sắp xếp:
Hỏi: Xin hãy giới thiệu ngắn gọn bản thân với khán giả. Bài blog gần đây của anh về “kỹ nghệ ngữ cảnh” rất truyền cảm hứng, tôi nghĩ rằng đây là bài bắt buộc đọc với bất kỳ ai đang phát triển AI Agent. Mỗi lần tôi đi ăn trưa với các kỹ sư, họ luôn bàn tán về bài viết đó, khiến tôi phải ngồi sang chỗ khác thôi (cười). Nhưng với những người tại hiện trường có thể chưa quen thuộc với Manus, anh có thể chia sẻ đôi chút về hành trình và tầm nhìn của mình không?
Đáp: Cảm ơn Paul. Rất vui được đến đây. Manus đang xây dựng một Agent AI tổng quát.
Nhiều viện nghiên cứu và công ty đang cố gắng tạo ra một bộ não – tức là một mô hình ngôn ngữ lớn. Nhưng chúng tôi cho rằng, xét từ góc độ người tiêu dùng, điều này thực ra không tốt. AI nên có thể hành động thực sự, hoàn thành việc, vì vậy chúng tôi đã xây dựng Manus.
Phương pháp của chúng tôi là cho phép AI sử dụng một trong những phát minh vĩ đại nhất trong lịch sử loài người – máy tính phổ thông. Khi trao máy tính cho AI, nó có thể làm mọi điều mà con người làm được. Manus thực sự có thể hoàn thành nhiệm vụ. Ví dụ, nó có thể giúp bạn làm bản thuyết trình, lên kế hoạch cho một chuyến du lịch, thậm chí vận hành mạng xã hội – dù tôi không khuyến khích bạn làm thật như vậy.
Người dùng rất yêu thích Manus. Chúng tôi ra mắt Manus vào tháng Ba, hiện đã đạt tỷ lệ doanh thu vận hành khoảng 90 triệu USD (RRR), và sắp sớm vượt mốc 100 triệu.
Tôi nghĩ điều này rất lớn đối với một startup nhỏ như chúng tôi. Nhưng quan trọng hơn, điều này chứng tỏ AI Agent đã không còn chỉ là một thuật ngữ thời thượng trong lĩnh vực nghiên cứu, mà đang được ứng dụng thực tế, bén rễ sâu vào đời sống.
Tôi có thể chia sẻ một câu chuyện nhỏ khi xây dựng Manus.
Chúng tôi thực sự lấy được rất nhiều cảm hứng từ ứng dụng coding Agent. Ví dụ như sản phẩm lập trình AI Cursor, từng thu hút rất nhiều sự chú ý.
Là kỹ sư, chúng tôi tự nhiên sử dụng Cursor. Nhưng điều khiến chúng tôi ngạc nhiên là rất nhiều đồng nghiệp không phải kỹ sư trong công ty cũng đang dùng Cursor. Dĩ nhiên, họ không viết phần mềm, mà dùng nó để trực quan hóa dữ liệu, thậm chí viết một số bài báo. Họ bỏ qua phần mã bên trái, chỉ trò chuyện với AI để hoàn thành công việc.
Điều này khiến chúng tôi nhận ra: Chúng ta nên khái quát hóa cách thức này, trao quyền cho người không lập trình. Đây chính là một trường hợp sử dụng AI.
Hỏi: Chúng ta ngày càng thường xuyên nghe người ta nói về AI Agent và AGI. Anh có thể giúp phân biệt rõ hơn hai khái niệm này? Với anh và Manus, AI Agent và AGI nghĩa là gì?
Đáp: Chúng tôi cho rằng đây là một câu hỏi rất hay.
Hiện giờ hầu như mọi người gọi mọi thứ là «Agent». Ví dụ một chiếc micro, có người nói nó là «Agent thu âm có cảm biến môi trường».
Nhưng ít nhất chúng tôi cho rằng, Agent nên là một tập con của AI ứng dụng. Hãy lùi lại một bước để xem các loại ứng dụng AI phổ biến.
Đa số mọi người đã quen thuộc với hai loại: một là chatbot, ví dụ ChatGPT; hai là công cụ tạo nội dung, ví dụ MidJourney hay Sora. Trong các hệ thống này, thường chỉ có hai vai trò: người dùng và mô hình. Bạn tương tác với mô hình và nhận đầu ra. Điểm khác biệt của Agent là ngoài người dùng và mô hình, nó còn thêm yếu tố thứ ba then chốt – môi trường.
Khái niệm «môi trường» thay đổi tùy loại Agent, ví dụ với Agent thiết kế, môi trường có thể là một bảng vẽ hoặc đoạn mã; còn với Manus, mục tiêu của chúng tôi là đưa Agent vào máy ảo hoặc toàn bộ Internet. Như vậy Agent có thể quan sát môi trường, quyết định bước tiếp theo cần làm, và thay đổi môi trường bằng hành động. Điều này khiến nó trở nên mạnh mẽ.
Ví dụ với Manus, bạn có thể bày tỏ nhu cầu, nó sẽ mở trình duyệt, đăng trang web, giúp bạn đặt vé máy bay. Tôi rất thích ví dụ này vì dù đặt vé nghe có vẻ đơn giản, nhưng thực chất đây là AI đang trực tiếp thay đổi thế giới thực – kết quả không phải là đầu ra của mô hình, mà là tấm vé trong tay bạn. AI thực sự can thiệp vào thế giới của bạn. Đó là điều chúng tôi gọi là Agent.
Tóm lại, Agent là hệ thống AI có thể đại diện người dùng tương tác với môi trường.
Còn về AGI, từ này cũng thường được nhắc đến, nhiều người coi nó như trí tuệ siêu cấp. Theo chúng tôi, AGI là hệ thống có thể tận dụng năng lực tổng quát của mô hình AI để hoàn thành nhiều nhiệm vụ mà không cần thiết kế riêng biệt.
Chúng tôi cho rằng «Agent coding» thực ra là một con đường dẫn đến AGI. Nó không phải năng lực trong lĩnh vực dọc, mà nếu trao cho máy tính, thì gần như có thể làm mọi việc trên máy tính. Vì vậy với chúng tôi, điều kiện để đạt AGI là xây dựng một môi trường đủ hoàn thiện để năng lực này phát huy.
Hỏi: Vậy AI ngày nay thực sự phát huy tác dụng ở những bối cảnh nào? Tương lai sẽ đóng vai trò ở đâu? Khi nào sẽ xuất hiện thời điểm iPhone?
Đáp: Xét riêng Agent, nếu chỉ nhìn vào năng lực mô hình, các mô hình flagship hiện nay đã rất đáng kinh ngạc, gần như ở cấp độ «siêu nhân». Chúng có thể vượt qua đa số chúng ta trong thi toán hay suy luận logic.
Nhưng tôi cho rằng, mô hình vẫn giống như một «bộ não trong chai», muốn phát huy sức mạnh thực sự, phải để chúng tương tác với thế giới thật, chạm đến thực tế. Tiếc thay, chính đây là nơi vấn đề bắt đầu.
Ví dụ bạn bảo AI làm một nhiệm vụ mang tính hành chính, nó thực sự giỏi trong các nhiệm vụ lặp đi lặp lại. Như sản phẩm Deep Research, nó chỉ tập hợp thông tin rồi đưa ra kết quả, đầu ra đơn giản chỉ hiện ra đó.
Ví dụ, hiện nay hầu như mọi thứ đều được thiết kế cho con người, không chỉ thế giới vật lý, mà cả thế giới kỹ thuật số cũng vậy. Các công cụ web giống như trò chơi nhỏ, không cung cấp API hay giao diện chuẩn. Mã xác thực CAPTCHA ở khắp nơi, liên tục chặn Agent.
Vì vậy tôi cho rằng AI thể hiện tốt trong các nhiệm vụ khép kín, nhưng một khi liên quan đến thế giới thực, sẽ gặp trở ngại.
Thời điểm iPhone sẽ đến khi nào? Tôi nghĩ đây không phải vấn đề kỹ thuật, mà giống như một giới hạn thể chế. Không phải chuyện mà các startup Agent như chúng tôi có thể giải quyết một mình.
Tôi cho rằng cần một quá trình chuyển đổi dần dần, đòi hỏi cả hệ sinh thái cùng tiến hóa. Cũng cần các công ty như Stripe hành động ở cấp độ cơ sở hạ tầng. Ví dụ chúng tôi đang tích hợp API thanh toán Agentic mới của Stripe. Mọi người cùng nỗ lực.
Hỏi: Vậy chúng ta có thể nói cụ thể hơn về một số tình huống điển hình khi người dùng sử dụng Manus? Họ dùng như thế nào? Thể hiện sức mạnh ra sao?
Đáp: Đúng vậy, mặc dù chúng tôi đến từ thế hệ Agent hiện tại, nhưng đã thấy rất nhiều trường hợp sử dụng tuyệt vời.
Ví dụ, chúng tôi vừa chuyển đến Singapore, cần thuê môi giới bất động sản giúp tìm nơi ở. Là Agent thật sự (cười).
Hiện các môi giới này đã dùng Manus: Họ dựa trên nhu cầu khách hàng, dùng Manus phân tích vị trí công ty, khu vực nhân viên muốn sống, rồi tạo đề xuất tương ứng.
Tôi thấy điều này rất thú vị, vì đây là dạng «nhu cầu đuôi dài». Nói chung, hiếm có sản phẩm AI chuyên biệt nào được thiết kế cho tình huống cụ thể như vậy, nhưng vì Manus là Agent tổng quát, nó có thể đáp ứng các nhu cầu này. Chúng tôi cho rằng nhu cầu đuôi dài rất đáng chú ý.
Xét vĩ mô, nó có thể là đuôi dài, nhưng với người dùng cụ thể, đây chính là công việc hàng ngày của họ. Những bối cảnh như vậy đặc biệt có giá trị.
Giống như格局 công cụ tìm kiếm hiện nay. Nếu bạn chỉ tìm nội dung phổ biến, dù dùng Google hay Bing, chất lượng kết quả cũng gần như nhau. Vậy tại sao người ta chọn cái này? Có thể vì công cụ nào đó đã đưa ra kết quả phù hợp hơn trong thời điểm nhất định. Còn nếu bạn tìm nội dung rất cá nhân hoặc chuyên môn cao, sự khác biệt càng rõ rệt. Vì vậy chúng tôi cho rằng ưu thế của Agent tổng quát nằm ở đây.
Làm sao để cải thiện hơn nữa? Chúng tôi đã suy nghĩ rất lâu, vì cho rằng mọi thứ đều xoay quanh lập trình. Nếu trao máy tính cho AI, cách nó tương tác với môi trường chính là thông qua lập trình.
Chúng tôi cho rằng có thể cải thiện theo hai hướng. Thứ nhất là quy mô. Nhưng nếu bạn có thể khuếch đại năng lực Agent lên gấp trăm lần thì sao?
Gần đây Manus vừa ra mắt tính năng mới, gọi là Wide Research. Ý tưởng cơ bản là cho phép một Agent sinh ra hàng trăm Agent khác cùng hoàn thành nhiệm vụ. Bạn biết đấy, nếu chỉ nhờ AI giúp việc nhỏ, nhiều lúc bạn tự làm cũng được. Nhưng nếu nhiệm vụ cực kỳ khổng lồ, một người không thể hoàn thành, ví dụ cần nghiên cứu quy mô lớn, lúc đó cho hàng trăm Agent chạy song song sẽ rất mạnh mẽ.
Thứ hai, chúng tôi cần để Agent sử dụng máy tính linh hoạt hơn. Ví dụ, nếu chỉ cung cấp cho AI Agent một số công cụ cố định, không gian hành động của nó bị giới hạn trong các công cụ đó. Nhưng hãy tưởng tượng bạn là lập trình viên, bạn có toàn bộ tài nguyên cộng đồng mã nguồn mở để gọi dùng.
Ví dụ khi in 3D, việc trực tiếp sửa tham số mô hình rất khó, nhưng nếu bạn tìm được thư viện phù hợp trên GitHub, cài đặt trực tiếp là giải quyết được vấn đề. Tại Manus, chúng tôi đang tối ưu tính phổ quát, và đưa ra khái niệm gọi là «hiệu ứng mạng của công cụ».
Có một ví dụ rất thú vị: Nhiều người dùng dùng Manus để trực quan hóa dữ liệu. Bạn biết đấy, ở châu Á đôi khi gặp vấn đề, ví dụ hiển thị tiếng Trung trong biểu đồ có thể bị lỗi font. Một số người dùng chuyên nghiệp có thể viết quy tắc hard code, ví dụ khi xuất tiếng Hàn phải dùng font nào. Nhưng cách này khiến hệ thống ngày càng cứng nhắc.
Chúng tôi áp dụng cách: thêm một khả năng rất đơn giản cho hệ thống – xem hình ảnh. Kết quả rất bất ngờ – vì mô hình ngày nay đã rất thông minh, chúng tự kiểm tra sau khi tạo hình ảnh trực quan, nhận ra lỗi, rồi tự động sửa lại. Chúng tôi phát hiện, tăng tính linh hoạt của công cụ giải quyết được nhiều vấn đề hơn so với hard code quy tắc.
Hỏi: Đây là một thời đại đầy hào hứng. Tôi thực sự phấn khích, chỉ mong mình trẻ thêm ba mươi tuổi nữa (cười). Nhắc đến nghiên cứu y học, tôi biết Manus cũng rất mạnh ở lĩnh vực này. Các anh có quan sát thấy người dùng dùng Manus nghiên cứu y tế không?
Đáp: Rất nhiều người đã dùng Manus để nghiên cứu, không chỉ giới hạn ở y học. Chúng tôi thấy điều này rất thú vị, vì hiện nay quả thực có rất nhiều sản phẩm «nghiên cứu sâu», chúng giúp bạn thu thập lượng lớn thông tin và phân tích sơ bộ, nhưng cuối cùng chỉ đưa cho bạn một file markdown hay tài liệu. Điều này còn xa mới đủ.
Trong nhiều trường hợp, điều các nhà nghiên cứu thực sự cần là thành quả có thể giao trực tiếp cho sếp hoặc nhóm. Vì vậy chúng tôi tăng cường đầu ra kết quả nghiên cứu trên Manus. Ví dụ trong nghiên cứu y học, thường cần tạo báo cáo chính thức, như báo cáo dạng slide chẳng hạn. Vì vậy chúng tôi phải tối ưu khả năng đầu ra của AI để đáp ứng nhu cầu nghiên cứu. Đây là trải nghiệm theo hướng «công cụ hóa».
Ví dụ hiện nay nhiều người dùng dùng Manus để nghiên cứu, rồi trực tiếp tạo một website. Bạn sẽ thấy điều này hoàn toàn khác biệt so với cách xây dựng website truyền thống.
Bạn biết đấy, việc xây dựng một website bản thân không khó, khó là đảm bảo độ tin cậy và chính xác của dữ liệu. Vì vậy chúng tôi cho rằng, tốt nhất nên hoàn tất toàn bộ quy trình trong một phiên hội thoại, một ngữ cảnh chia sẻ duy nhất. Như vậy, nghiên cứu và hiểu biết của bạn có thể liền mạch chuyển thành thành quả cuối cùng. Đây chính là điều chúng tôi đang làm trên Manus.
Hỏi: Nhiều quốc gia đang thảo luận về một chủ đề: Trong kỷ nguyên AI, tương lai của con người và tác động kinh tế sẽ ra sao. Anh nhìn nhận thế nào về việc việc làm bị thay thế? Và sẽ xuất hiện những cơ hội việc làm mới nào?
Đáp: Bạn bè và nhà đầu tư của chúng tôi cũng thường xuyên hỏi câu hỏi này. Khi ra mắt Manus, ban đầu chúng tôi nghĩ rằng nếu xây dựng được Agent như vậy, nó sẽ giúp mọi người tiết kiệm rất nhiều thời gian, để mọi người dễ dàng kiếm tiền hơn.
Nhưng thực tế, chúng tôi phát hiện tầm nhìn này chưa hoàn toàn thành hiện thực. Qua khảo sát người dùng quy mô lớn, chúng tôi thấy người dùng sau khi sử dụng lại làm việc nhiều hơn. Bởi họ trở nên hiệu quả hơn, thực tế họ có thể làm nhiều việc hơn trong những lĩnh vực vốn họ giỏi. Đây là điểm thứ nhất.
Thứ hai, chúng tôi cho rằng Manus còn mở ra một không gian hoàn toàn mới. Chúng tôi luôn bàn về máy ảo và điện toán đám mây. Chúng tôi thấy Manus đang đóng vai trò như một «nền tảng điện toán đám mây cá nhân». Điện toán đám mây đã tồn tại vài thập kỷ, nhưng chủ yếu là đặc quyền của kỹ sư, chỉ có chúng tôi mới có thể gọi sức mạnh đám mây qua lập trình. Người lao động tri thức bình thường không thể sử dụng.
Nhưng hiện nay với các AI Agent như Manus, mọi người có thể ra lệnh bằng ngôn ngữ tự nhiên, để AI thực thi. Điều này đồng nghĩa với việc mở khóa một năng suất hoàn toàn mới. Đây là điều chúng tôi mang lại.
Và cuối cùng, về khía cạnh «thay thế», tôi cho rằng thực sự rất khó. Ví dụ môi giới bất động sản, họ mỗi ngày đều dùng Manus để hoàn tất công việc thường nhật. Nhưng bạn biết đấy, AI sẽ không bao giờ thay thế được cách giao tiếp của môi giới khi đối mặt với khách hàng. Chúng tôi là công ty AI, thậm chí video ra mắt Manus cũng do Manus viết kịch bản, nhưng người xuất hiện trong video vẫn là tôi, bởi đây là vấn đề niềm tin. Mà niềm tin thì không thể hoàn toàn giao cho AI.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News














