
Nói rõ về Agent, nó là "đồng nghiệp" hay chỉ là "công cụ", cơ hội khởi nghiệp và giá trị thực sự của nó là gì?
Tuyển chọn TechFlowTuyển chọn TechFlow

Nói rõ về Agent, nó là "đồng nghiệp" hay chỉ là "công cụ", cơ hội khởi nghiệp và giá trị thực sự của nó là gì?
Sản phẩm AI đang chuyển từ "công cụ" sang "mối quan hệ", con người cần quyết định thiết lập mối quan hệ như thế nào.
Biên tập: Moonshot
Nguồn: GeekPark
Năm 2025 là năm Agent bấm nút tăng tốc.
Từ sự kinh ngạc do DeepSeek tạo ra đầu năm, đến sự xuất hiện liên tiếp của GPT-4o và Claude 3.5, ranh giới của mô hình lớn đã bị viết lại nhiều lần. Nhưng điều khiến ngành công nghiệp AI căng thẳng không phải là việc cải tiến hiệu suất mô hình, mà là sự xuất hiện bất ngờ của Agent.
Sự bùng nổ của các sản phẩm như Manus và Devin đang khẳng định một điểm chung: mô hình lớn sẽ không còn chỉ là công cụ, mà sẽ trở thành các thực thể thông minh có khả năng tự điều phối.
Do đó, Agent đã trở thành xu hướng thứ hai nhanh chóng đạt được sự đồng thuận toàn cầu trong giới công nghệ, sau mô hình lớn.
Từ việc tái cấu trúc chiến lược của các gã khổng lồ đến sự theo đuổi nhanh chóng của các startup, Agent đang trở thành hướng đi mà cả thế giới cùng đặt cược. Tuy nhiên, khi các sản phẩm C端 (người dùng cuối) xuất hiện dày đặc và các nhà phát triển cuồng nhiệt với nó, số lượng dự án thực sự khép kín giá trị cho người dùng lại cực kỳ hiếm hoi. Ngày càng nhiều sản phẩm rơi vào trạng thái lo lắng "áp dụng nhu cầu cũ lên công nghệ mới".
Sau cơn sốt, thị trường dần trở nên tỉnh táo: liệu Agent có thực sự là một cuộc cách mạng về mô hình, hay chỉ là một lớp bao bì mới? Liệu sự phân nhánh giữa con đường "phổ quát" và "chuyên biệt" có thực sự mở ra không gian thị trường bền vững? Đằng sau "lối vào mới", là sự tiến hóa của phương thức tương tác hay chỉ là bóng dáng của thế giới cũ?
Theo những câu hỏi này, chúng ta nhận ra rằng rào cản thực sự của Agent có lẽ không nằm ở năng lực mô hình, mà ở cơ sở hạ tầng nền tảng nơi nó tồn tại. Từ môi trường hoạt động kiểm soát được, hệ thống bộ nhớ, nhận thức ngữ cảnh, đến việc gọi công cụ – mỗi thiếu sót ở một module cơ bản đều là trở ngại lớn nhất ngăn Agent từ dạng trình diễn chuyển sang ứng dụng thực tế.
Những vấn đề kỹ thuật nền tảng này chính là rào cản lớn nhất khiến Agent chưa thể chuyển mình từ "đồ chơi thời thượng" thành "công cụ năng suất", đồng thời cũng là vùng biển xanh khởi nghiệp có giá trị cao và chắc chắn nhất hiện nay.
Trong giai đoạn cung vượt cầu, nhu cầu chưa rõ ràng này, chúng tôi muốn mượn buổi trò chuyện này để trả lời một câu hỏi ngày càng cấp thiết: Những vấn đề thật sự và cơ hội thật sự của Agent nằm ở đâu?
Trong cuộc trao đổi sâu sắc này, chúng tôi mời đến Lý Quảng Mật – người sáng lập TechFlow và Chung Khải Kỳ – Trưởng nhóm Nghiên cứu AI của TechFlow, hai người trong cuộc sẽ giải mã những vấn đề và cơ hội thực sự của Agent trên nhiều phương diện như hình thái sản phẩm, lộ trình kỹ thuật, mô hình kinh doanh, trải nghiệm người dùng và xây dựng hạ tầng (Infra).
Chúng ta sẽ cùng theo dõi suy nghĩ của họ để tìm hiểu cơ hội thực sự của các startup nằm ở đâu giữa bàn cờ có sự hiện diện của các gã khổng lồ; làm thế nào để xác minh từng bước một lộ trình phát triển thực tế từ "Copilot" đến "Agent"; và vì sao lĩnh vực Coding (lập trình), dù dường như rất chuyên biệt, lại được coi là "cao nguyên giá trị" và "chỉ số then chốt" dẫn tới AGI.
Cuối cùng, cuộc đối thoại này sẽ hướng tới tương lai xa hơn, hé lộ mối quan hệ hợp tác hoàn toàn mới giữa con người và Agent, cũng như những thách thức cốt lõi và cơ hội vô tận trong việc xây dựng cơ sở hạ tầng trí tuệ thế hệ tiếp theo.
Những điểm nổi bật
-
Lĩnh vực Agent phổ quát làm tốt nhất là “mô hình chính là Agent” (Model as Agent).
-
Việc xây dựng Agent không nhất thiết phải “bắt đầu từ đích”, tức là ngay từ đầu đã nhắm tới một Agent hoàn toàn tự động. Có thể bắt đầu từ Copilot, thu thập dữ liệu người dùng, tối ưu trải nghiệm, chiếm lĩnh nhận thức người dùng, rồi từ từ chuyển đổi.
-
AGI có thể hiện thực hóa đầu tiên trong môi trường Coding (lập trình), vì đây là môi trường đơn giản nhất, nơi rèn luyện năng lực cốt lõi của AI. Coding là “cỗ máy vạn năng” của thế giới này; có nó, AI có thể xây dựng và sáng tạo. Coding có thể chiếm tới 90% giá trị giai đoạn của toàn ngành mô hình lớn.
-
Sản phẩm AI Native không chỉ phục vụ con người, mà phải đồng thời phục vụ AI. Một sản phẩm AI Native thực sự nên tích hợp cơ chế hai chiều phục vụ cả AI và con người.
-
Sản phẩm AI ngày nay đang chuyển từ “công cụ” sang “mối quan hệ”. Con người không thiết lập mối quan hệ với công cụ, nhưng sẽ làm vậy với một AI có trí nhớ, hiểu bạn và có thể “thấu hiểu tâm tư” với bạn.
Dưới đây là nội dung đã được lưu trữ từ buổi livestream Kể chuyện công nghệ đêm nay, được GeekPark biên soạn.
01 Dưới cơn sốt, những sản phẩm Agent nào đã nổi bật?
Trương Bằng: Trong khoảng thời gian gần đây, mọi người đều đang thảo luận về Agent, cho rằng đây có thể là chủ đề quan trọng ở giai đoạn hiện tại, cũng là cơ hội phát triển hiếm có cho các startup.
Tôi thấy TechFlow đã nghiên cứu khá sâu về hệ thống Agent, cũng đã trải nghiệm và phân tích nhiều sản phẩm liên quan. Trước tiên, tôi muốn nghe hai bạn, gần đây sản phẩm Agent nào để lại ấn tượng sâu sắc nhất với hai bạn? Vì sao?
Lý Quảng Mật: Với tôi, ấn tượng sâu sắc nhất là hai sản phẩm: một là khả năng lập trình của Claude từ Anthropic, hai là chức năng Deep Research của ChatGPT từ OpenAI.
Về Claude, chủ yếu là khả năng lập trình. Tôi có một quan điểm: Lập trình (Coding) là chỉ số tiên nghiệm then chốt nhất để đo lường AGI. Nếu AI không thể phát triển phần mềm quy mô lớn, đầu cuối, thì tiến triển ở các lĩnh vực khác cũng sẽ chậm. Chúng ta phải trước tiên hiện thực hóa ASI (Siêu trí tuệ nhân tạo) mạnh mẽ trong môi trường Coding, các lĩnh vực khác mới có thể tăng tốc. Nói cách khác, chúng ta cần hiện thực hóa AGI trong môi trường số trước, rồi mới mở rộng ra các lĩnh vực khác.

Lập trình viên AI đầu tiên trên thế giới Devin|Ảnh: Cognition Labs
Về Deep Research, nó giúp ích rất nhiều cho tôi, gần như tôi sử dụng mỗi ngày. Thực chất đây là một Agent tìm kiếm, giúp tôi truy xuất hàng loạt trang web và tài liệu, trải nghiệm rất tốt, mở rộng đáng kể không gian nghiên cứu của tôi.
Trương Bằng: Khải Kỳ, từ góc nhìn của bạn, sản phẩm nào để lại ấn tượng sâu sắc?
Chung Khải Kỳ (Cage): Tôi có thể giới thiệu mô hình tư duy mà tôi thường dùng khi quan sát và sử dụng Agents, rồi giới thiệu một vài sản phẩm tiêu biểu trong từng phân loại.
Đầu tiên, mọi người thường hỏi: Agent phổ quát hay Agent chuyên biệt? Theo chúng tôi, lĩnh vực Agent phổ quát làm tốt nhất là "mô hình chính là Agent" (Model as Agent). Ví dụ như Deep Research của OpenAI mà Quảng Mật vừa nhắc đến, hoặc mô hình o3 mới phát hành của OpenAI, đây thực sự là ví dụ tiêu chuẩn của "mô hình chính là Agent". Nó kết hợp tất cả các thành phần của Agent — mô hình ngôn ngữ lớn (LLM), ngữ cảnh (Context), sử dụng công cụ (Tool Use) và môi trường (Environment) — thành một khối, rồi huấn luyện học tăng cường (reinforcement learning) đầu cuối. Kết quả sau huấn luyện là có thể hoàn thành mọi nhiệm vụ truy xuất thông tin.
Vì vậy, tôi có một "luận điểm gây tranh cãi": nhu cầu Agent phổ quát cơ bản chỉ gồm hai loại — truy xuất thông tin và viết mã nhẹ độ phức tạp thấp — và GPT-4o đã làm rất tốt. Do đó, thị trường Agent phổ quát cơ bản là sân chơi của các công ty mô hình lớn, startup khó có thể phát triển chỉ bằng phục vụ nhu cầu phổ quát.
Những startup để lại ấn tượng sâu sắc với tôi đa số tập trung vào lĩnh vực chuyên biệt (Vertical).
Nếu nói về lĩnh vực B2B (doanh nghiệp), có thể so sánh công việc con người thành công việc phía trước (front office) và phía sau (back office).
Công việc phía sau đặc trưng bởi tính lặp lại cao, yêu cầu xử lý đồng thời lớn, thường có quy trình vận hành tiêu chuẩn (SOP) dài, nhiều nhiệm vụ phù hợp để AI Agent thực hiện trực tiếp, và thích hợp cho học tăng cường trong không gian khám phá lớn. Đại diện tiêu biểu là một số startup trong lĩnh vực AI for Science, họ xây dựng hệ thống Multi-agent (nhiều agent).
Hệ thống này bao gồm nhiều nhiệm vụ nghiên cứu như truy xuất tài liệu, lập kế hoạch thí nghiệm, dự đoán xu hướng phát triển và phân tích dữ liệu. Đặc điểm là không còn là một Agent đơn lẻ như Deep Research, mà là một hệ thống phức tạp, có độ phân giải cao hơn cho hệ thống nghiên cứu. Nó có một chức năng thú vị gọi là "Tìm mâu thuẫn" (Contradiction Finding), xử lý nhiệm vụ đối kháng, ví dụ phát hiện mâu thuẫn giữa hai bài báo khoa học hàng đầu. Đây là một mô hình rất thú vị trong Agent nghiên cứu.
Công việc phía trước thường liên quan đến giao tiếp, ngoại giao, hiện nay phù hợp nhất là Voice Agent, ví dụ như cuộc gọi hồi đáp của y tá trong lĩnh vực y tế, tuyển dụng, giao tiếp logistics, v.v.
Tôi muốn giới thiệu một công ty tên HappyRobot, họ chọn một tình huống nghe có vẻ nhỏ, chuyên thực hiện cuộc gọi trong lĩnh vực logistics và chuỗi cung ứng. Ví dụ, một tài xế xe tải gặp vấn đề, hoặc hàng đến nơi, Agent có thể nhanh chóng gọi điện cho anh ta. Điều này phát huy một khả năng đặc biệt của AI Agent: phản hồi 24/7 không ngừng nghỉ và phản ứng nhanh chóng. Đối với nhu cầu logistics, điều này đã là đủ.
Ngoài hai loại trên, còn một số trường hợp đặc biệt, ví dụ như Coding Agent.
02 Từ Copilot đến Agent, có tồn tại con đường phát triển thực tế hơn không?
Chung Khải Kỳ: Trong lĩnh vực phát triển mã nguồn, gần đây tinh thần khởi nghiệp rất sôi nổi, một ví dụ tuyệt vời là Cursor. Việc phát hành Cursor 1.0 về cơ bản biến một sản phẩm ban đầu trông giống Copilot (trợ lý lái xe) thành một sản phẩm Agent hoàn chỉnh. Nó có thể hoạt động bất đồng bộ ở nền, có chức năng ghi nhớ, đúng như hình ảnh chúng ta tưởng tượng về Agent.
So sánh giữa nó và Devin rất thú vị, mang lại cho chúng ta bài học: Việc xây dựng Agent không nhất thiết phải "bắt đầu từ đích", ngay từ đầu nhắm đến Agent hoàn toàn tự động, mà có thể bắt đầu từ Copilot. Trong quá trình này thu thập dữ liệu người dùng, tối ưu trải nghiệm, chiếm lĩnh nhận thức người dùng, rồi từ từ chuyển đổi. Trong nước, Minus AI cũng làm khá tốt, sản phẩm ban đầu của họ cũng bắt đầu dưới dạng Copilot.
Cuối cùng, tôi còn dùng mô hình "môi trường" để phân biệt các Agent khác nhau. Ví dụ, môi trường của Manus là máy ảo (Virtual Machine), môi trường của Devin là trình duyệt, môi trường của flowith là sổ tay, môi trường của SheetZero là bảng tính, môi trường của Lovart là bảng vẽ, v.v. "Môi trường" này tương ứng với định nghĩa môi trường trong học tăng cường, đây cũng là cách phân loại đáng tham khảo.

flowith do đội startup trong nước phát triển|Ảnh: flowith
Trương Bằng: Chúng ta hãy đi sâu vào ví dụ Cursor, lộ trình phát triển và stack công nghệ đằng sau nó như thế nào?
Chung Khải Kỳ (Cage): Ví dụ ô tô tự lái rất thú vị, đến tận hôm nay Tesla vẫn không dám bỏ hoàn toàn vô-lăng, phanh và ga. Điều này chứng tỏ ở nhiều quyết định then chốt, AI vẫn chưa thể vượt qua con người. Miễn là năng lực AI tương đương con người, một số quyết định quan trọng nhất định cần con người can thiệp. Đây chính là điều Cursor hiểu rất rõ ngay từ đầu.
Vì vậy, đặc tính đầu tiên họ gắn bó chặt chẽ là chức năng con người cần nhất: tự động hoàn thiện (Autocompletion), họ biến chức năng này thành kích hoạt bằng phím Tab. Khi có các mô hình như Claude 3.5, Cursor nâng độ chính xác của Tab lên hơn 90%. Với độ chính xác này, tôi có thể liên tục sử dụng 5-10 lần trong một luồng nhiệm vụ, trải nghiệm "lưu thông ý thức" (flow experience) xuất hiện. Đây là giai đoạn đầu tiên của Cursor như một Copilot.
Giai đoạn thứ hai, họ thêm chức năng tái cấu trúc mã (Code Refactoring). Cả Devin và Cursor đều muốn làm nhu cầu này, nhưng Cursor làm tinh tế hơn. Nó sẽ bật một hộp thoại, khi tôi nhập yêu cầu, nó có thể mở một chế độ sửa đổi song song bên ngoài file để tái cấu trúc mã.
Khi chức năng này mới ra mắt, độ chính xác chưa cao, nhưng vì người dùng kỳ vọng nó là Copilot, nên ai cũng chấp nhận được. Và họ dự đoán chính xác rằng năng lực mã hóa của mô hình chắc chắn sẽ nhanh chóng cải thiện. Vì vậy, họ vừa mài giũa chức năng sản phẩm, vừa chờ đợi năng lực mô hình tăng lên, từ đó năng lực Agent một cách tự nhiên xuất hiện.
Bước thứ ba là trạng thái Cursor ngày nay: một Agent tương đối đầu cuối, chạy nền. Đằng sau nó có một môi trường giống hộp cát (sandbox), thậm chí tôi có thể giao nhiệm vụ không muốn làm khi đi làm cho nó, nó có thể hoàn thành bằng tài nguyên tính toán của tôi ở nền, đồng thời tôi có thể tập trung vào nhiệm vụ cốt lõi mình muốn làm.
Cuối cùng, nó thông báo kết quả cho tôi dưới dạng tương tác bất đồng bộ, giống như gửi email hay tin nhắn Feishu. Quá trình này trôi chảy thực hiện chuyển đổi từ Copilot sang Autopilot (hay nói cách khác là Agent).
Chìa khóa vẫn là nắm bắt tâm lý tương tác của con người, ban đầu để người dùng dễ dàng chấp nhận tương tác đồng bộ, từ đó thu thập được lượng lớn dữ liệu và phản hồi người dùng.
03 Vì sao Coding là "sân thử nghiệm then chốt" dẫn tới AGI?
Trương Bằng: Quảng Mật vừa nói "Coding là chìa khóa dẫn tới AGI, nếu không thể hiện thực hóa ASI (siêu trí tuệ) trong lĩnh vực này, các lĩnh vực khác cũng khó". Vì sao?
Lý Quảng Mật: Có vài logic. Thứ nhất, dữ liệu Code là sạch nhất, dễ khép kín nhất, và kết quả có thể kiểm chứng. Tôi có một giả thuyết, Chatbot có thể không có vòng phản hồi dữ liệu (data flywheel - cơ chế vòng lặp phản hồi, thông qua việc thu thập dữ liệu từ tương tác hoặc quy trình để liên tục tối ưu mô hình AI, từ đó tạo ra kết quả tốt hơn và dữ liệu có giá trị hơn). Nhưng trong lĩnh vực Code có cơ hội tạo ra vòng phản hồi dữ liệu, vì có thể thực hiện học tăng cường nhiều vòng, và Code là môi trường then chốt để chạy học tăng cường nhiều vòng.
Tôi một mặt hiểu Code là công cụ lập trình, nhưng càng muốn hiểu nó như một môi trường hiện thực hóa AGI. AGI có thể hiện thực hóa đầu tiên trong môi trường này, vì nó đơn giản nhất, rèn luyện năng lực cốt lõi của AI. Nếu AI không thể tự phát triển ứng dụng phần mềm đầu cuối, thì trong các lĩnh vực khác càng khó. Nếu trong thời gian tới nó không thể thay thế quy mô lớn công việc phát triển phần mềm cơ bản, thì trong các lĩnh vực khác cũng khó.
Hơn nữa, khi năng lực coding tăng lên, năng lực tuân thủ chỉ thị của mô hình cũng tăng. Ví dụ xử lý prompt dài, Claude rõ ràng mạnh hơn, chúng tôi suy đoán điều này có liên quan logic đến năng lực coding của nó.
Một điểm khác, tôi nghĩ AGI tương lai sẽ hiện thực hóa trước trong thế giới số. Trong hai năm tới, Agent có thể làm hầu hết mọi việc con người thao tác trên điện thoại và máy tính. Một mặt thông qua coding đơn giản hoàn thành, nếu không được, nó còn có thể gọi các công cụ ảo khác. Vì vậy, hiện thực hóa AGI trong thế giới số trước, để nó chạy nhanh, đây là một logic lớn.
04 Làm sao đánh giá một Agent tốt?
Trương Bằng: Coding là "cỗ máy vạn năng" của thế giới này, có nó, AI có thể xây dựng và sáng tạo. Hơn nữa, lĩnh vực lập trình tương đối cấu trúc, phù hợp để AI phát huy. Khi đánh giá tốt/xấu của một Agent, ngoài trải nghiệm người dùng, hai bạn sẽ đánh giá tiềm năng của Agent từ góc nhìn nào?
Chung Khải Kỳ (Cage): Một Agent tốt trước tiên phải có một môi trường để xây dựng vòng phản hồi dữ liệu, và bản thân dữ liệu đó phải có thể kiểm chứng.
Gần đây, các nhà nghiên cứu Anthropic thường nhắc đến một từ gọi là RLVR (Học tăng cường từ phần thưởng có thể kiểm chứng - Reinforcement Learning from Verifiable Reward), chữ "V" ở đây chỉ phần thưởng có thể kiểm chứng. Code và Toán học là những lĩnh vực kiểm chứng tiêu chuẩn, nhiệm vụ hoàn thành xong, lập tức có thể kiểm tra đúng sai, vòng phản hồi dữ liệu tự nhiên hình thành.

Cơ chế vòng phản hồi dữ liệu|Ảnh: NVIDIA
Vì vậy, xây dựng một sản phẩm Agent là xây dựng một môi trường như vậy. Trong môi trường này, thành công hay thất bại của người dùng khi thực hiện nhiệm vụ không quan trọng, vì Agent hiện tại chắc chắn sẽ thất bại. Quan trọng là khi thất bại, nó có thể thu thập dữ liệu có tín hiệu, chứ không phải dữ liệu nhiễu, để hướng dẫn tối ưu sản phẩm. Những dữ liệu này thậm chí có thể làm dữ liệu khởi động lạnh cho môi trường học tăng cường.
Thứ hai, sản phẩm có thực sự "Agent Native" hay không. Nghĩa là khi thiết kế sản phẩm, phải đồng thời cân nhắc nhu cầu của con người và Agent. Một ví dụ điển hình là The Browser Company, tại sao họ phải làm một trình duyệt mới? Vì Arc trước đây thuần túy được thiết kế để nâng cao hiệu suất người dùng con người. Trình duyệt mới của họ khi thiết kế, nhiều chức năng mới trong tương lai sẽ dành cho chính AI Agent sử dụng. Khi logic thiết kế nền tảng của sản phẩm thay đổi, điều này rất quan trọng.
Xét về kết quả, đánh giá khách quan cũng rất quan trọng.
1. Tỷ lệ hoàn thành nhiệm vụ + tỷ lệ thành công: Trước tiên nhiệm vụ phải chạy xong, ít nhất người dùng nhận được phản hồi. Sau đó là tỷ lệ thành công. Một nhiệm vụ 10 bước, nếu mỗi bước độ chính xác đều 90%, thì tỷ lệ thành công cuối cùng chỉ còn 35%. Vì vậy phải tối ưu tốt sự kết nối giữa các bước. Hiện tại trong ngành, mức đạt yêu cầu có thể là tỷ lệ thành công trên 50%.
2. Chi phí và hiệu suất: Bao gồm chi phí tính toán (token cost) và chi phí thời gian người dùng. Nếu GPT-4o chạy một nhiệm vụ mất 3 phút, trong khi Agent khác mất 30 phút, đây là tiêu hao lớn với người dùng. Hơn nữa, trong 30 phút đó, tiêu thụ năng lực tính toán rất lớn, ảnh hưởng đến hiệu ứng quy mô.
3. Chỉ số người dùng: Điển hình nhất là độ bám dính người dùng. Sau khi trải nghiệm, người dùng có sẵn sàng sử dụng lặp lại? Ví dụ như tỷ lệ hoạt động hàng ngày/tháng (DAU/MAU), tỷ lệ giữ chân tháng sau, tỷ lệ trả phí, v.v., đây là những chỉ số căn bản tránh cho công ty chỉ có "vinh quang tạm thời" (five minutes of fame).
Lý Quảng Mật: Tôi bổ sung thêm một góc nhìn: mức độ phù hợp giữa Agent và năng lực mô hình hiện tại. Hiện tại 80% năng lực của Agent phụ thuộc vào mô hình như động cơ. Ví dụ, khi GPT đạt đến 3.5, mô hình đối thoại đa vòng phổ quát xuất hiện, sản phẩm kiểu Chatbot mới khả thi. Sự trỗi dậy của Cursor cũng nhờ mô hình phát triển đến mức Claude 3.5, khả năng hoàn thiện mã mới thành lập.
Devin thực ra ra mắt hơi sớm, nên việc đội sáng lập hiểu rõ giới hạn năng lực mô hình rất quan trọng, phải rõ ràng mô hình có thể đi đến đâu trong sáu tháng tới, điều này liên quan mật thiết đến mục tiêu Agent có thể đạt được.
Trương Bằng: Thế nào là sản phẩm "AI Native"? Tôi cảm thấy sản phẩm AI Native không chỉ phục vụ con người, mà phải đồng thời phục vụ AI.
Nói cách khác, nếu một sản phẩm không có dữ liệu hợp lý để hiệu chỉnh, không xây dựng môi trường làm việc cho AI tương lai, thì nó chỉ xem AI là công cụ giảm chi phí và tăng hiệu suất, sản phẩm như vậy sức sống có hạn, dễ bị sóng công nghệ nhấn chìm. Một sản phẩm AI Native thực sự nên tích hợp cơ chế hai chiều phục vụ cả AI và con người. Nói đơn giản, khi AI phục vụ người dùng, người dùng có đang đồng thời phục vụ AI không?
Chung Khải Kỳ (Cage): Tôi rất thích khái niệm này. Dữ liệu Agent trong thế giới thực không tồn tại, không ai khi hoàn thành nhiệm vụ lại chia nhỏ từng bước suy nghĩ của mình. Vậy phải làm sao? Một cách là tìm công ty chú thích chuyên nghiệp, cách khác là tận dụng (leverage) người dùng, ghi lại cách sử dụng thực tế của người dùng và quá trình vận hành của chính Agent.
Trương Bằng: Vậy nếu muốn con người "nuôi" dữ liệu cho AI thông qua Agent, nhiệm vụ nào là có giá trị nhất?
Chung Khải Kỳ (Cage): Thay vì nghĩ dùng dữ liệu phục vụ AI, hãy nghĩ AI có điểm mạnh nào nên được khuếch đại. Ví dụ nghiên cứu khoa học, trước AlphaGo, con người nghĩ cờ vây và toán học là khó nhất. Nhưng sau khi dùng học tăng cường, phát hiện ra những thứ này với AI lại là dễ nhất. Trong lĩnh vực khoa học cũng vậy, trong lịch sử nhân loại đã lâu không có học giả nào thông suốt mọi ngóc ngách của từng môn học, nhưng AI có thể. Vì vậy, tôi cho rằng những nhiệm vụ như nghiên cứu khoa học với con người rất khó, nhưng với AI chưa chắc. Chính vì vậy, chúng ta cần tìm thêm dữ liệu và dịch vụ để hỗ trợ nó. Loại nhiệm vụ này có phần thưởng dễ kiểm chứng hơn đa số nhiệm vụ, tương lai thậm chí có thể con người giúp AI "lắc ống nghiệm", rồi nói với AI kết quả đúng hay sai, giúp AI cùng nhau thắp sáng cây công nghệ.
Lý Quảng Mật: Khởi động lạnh dữ liệu ban đầu là cần thiết. Làm một Agent giống như làm một startup, người sáng lập chắc chắn phải tự khởi động lạnh, phải tự thân làm. Tiếp theo, xây dựng môi trường rất quan trọng, quyết định Agent đi theo hướng nào. Về sau, quan trọng hơn là xây dựng hệ thống phần thưởng (Reward). Tôi cho rằng hai yếu tố môi trường và phần thưởng rất then chốt. Trên cơ sở này, người sáng lập Agent chỉ cần làm tốt vai trò "CEO" của Agent là được. Hôm nay AI đã có thể viết code con người không hiểu nhưng có thể chạy, chúng ta không nhất thiết phải hiểu logic học tăng cường đầu cuối, chỉ cần xây dựng tốt môi trường, thiết lập phần thưởng là được.
05 Mô hình kinh doanh của Agent sẽ đi về đâu?
Trương Bằng: Gần đây chúng ta thấy nhiều Agent trong lĩnh vực B2B, đặc biệt ở Mỹ, mô hình kinh doanh và mô hình tăng trưởng của họ có thay đổi gì không? Hay xuất hiện mô hình mới?
Chung Khải Kỳ (Cage): Hiện nay đặc điểm lớn nhất là ngày càng nhiều sản phẩm đi theo hướng C端 (người dùng cuối), được sử dụng từ dưới lên (bottom-up) trong tổ chức doanh nghiệp. Điển hình nhất là Cursor. Ngoài nó, còn nhiều sản phẩm AI Agent hoặc Copilot, mọi người sẵn sàng tự dùng trước. Như vậy không còn là mô hình SaaS truyền thống phải搞定 CIO (Giám đốc CNTT), ký hợp đồng một-một, ít nhất bước đầu không như vậy.
Một sản phẩm thú vị khác là OpenEvidence, họ làm nhóm bác sĩ. Họ trước tiên chiếm lĩnh nhóm bác sĩ, sau đó từ từ cài quảng cáo thiết bị y tế và thuốc. Các nghiệp vụ này không cần thương lượng với bệnh viện ngay từ đầu, vì thương lượng với bệnh viện rất chậm. Khởi nghiệp AI then chốt nhất là tốc độ, chỉ dựa vào hào mo công nghệ là vô dụng, cần tăng trưởng theo cách từ dưới lên.

Kỳ lân AI y tế OpenEvidence|Ảnh: OpenEvidence
Về mô hình kinh doanh, hiện nay có xu hướng dần chuyển từ định giá dựa trên chi phí (Cost-based) sang định giá dựa trên giá trị (Value-based).
1. Dựa trên chi phí: Giống dịch vụ đám mây truyền thống, thêm một lớp giá trị phần mềm lên chi phí CPU/GPU.
2. Thu phí theo lần: Với Agent, một cách là thu phí theo "hành động" (Action). Ví dụ như Agent logistics tôi vừa nhắc đến, gọi một cuộc điện thoại cho tài xế xe tải thu vài xu.
3. Thu phí theo quy trình làm việc: Mức trừu tượng cao hơn là thu phí theo "quy trình làm việc" (Workflow), ví dụ hoàn thành một đơn hàng logistics trọn gói. Cách này xa hơn khỏi chi phí, gần hơn với giá trị, vì nó thực sự tham gia vào công việc. Nhưng điều này cần một tình huống tương đối tập trung.
4. Thu phí theo kết quả: Cao hơn nữa là thu phí theo "kết quả" (Result). Vì tỷ lệ thành công Agent chưa cao, người dùng muốn trả tiền cho kết quả thành công. Điều này đòi hỏi công ty Agent phải mài giũa sản phẩm cực kỳ tốt.
5. Thu phí theo bản thân Agent: Tương lai có thể thực sự thu phí theo "Agent". Ví dụ, một công ty tên Hippocratic AI làm y tá AI, ở Mỹ thuê một y tá con người mất khoảng 40 đô la/giờ, trong khi y tá AI của họ chỉ mất 9-10 đô la/giờ, giảm chi phí ba phần tư. Trong thị trường đắt nhân lực như Mỹ, điều này rất hợp lý. Nếu Agent tương lai làm tốt hơn, tôi thậm chí có thể thưởng cho nó, phát lương thưởng cuối năm. Đây đều là đổi mới mô hình kinh doanh.
Lý Quảng Mật: Điều chúng tôi mong đợi nhất là cách định giá dựa trên giá trị (Value-based). Ví dụ Manus AI làm một website, giá trị này có đáng 300 đô la không? Nó làm một ứng dụng, có đáng 50.000 đô la không? Nhưng giá trị nhiệm vụ hiện tại vẫn chưa định giá tốt. Làm sao xây dựng cách đo lường và định giá tốt, là điều đáng để người sáng lập khám phá.
Ngoài ra, Khải Kỳ vừa nhắc đến thu phí theo Agent, giống như doanh nghiệp ký hợp đồng với nhân viên. Tương lai khi thuê Agent, liệu có cần cấp cho nó "thẻ căn cước"? Có cần ký "hợp đồng lao động"? Thực chất đây là hợp đồng thông minh (smart contract). Tôi mong đợi tương lai lĩnh vực Crypto sẽ ứng dụng hợp đồng thông minh như thế nào vào Agent trong thế giới số, khi nhiệm vụ hoàn thành, thông qua cách đo lường và định giá tốt, phân bổ lợi ích kinh tế. Đây có thể là cơ hội kết hợp giữa Agent và hợp đồng thông minh trong lĩnh vực Crypto.
06 Mối quan hệ hợp tác giữa con người và Agent sẽ trở thành hình thái gì?
Trương Bằng: Gần đây trong hướng Coding Agent, hai từ được thảo luận nhiều: "Human in the loop" và "Human on the loop", đang thảo luận điều gì?
Chung Khải Kỳ (Cage): "Human on the loop" là người giảm thiểu tối đa quyết định trong vòng lặp, chỉ tham gia ở thời điểm then chốt. Hơi giống FSD của Tesla, khi hệ thống gặp quyết định nguy hiểm, sẽ cảnh báo con người tiếp quản vô-lăng và phanh. Trong thế giới ảo, điều này thường chỉ hợp tác bất đồng bộ, phi tức thời. Con người có thể can thiệp vào những quyết định then chốt mà AI chưa chắc chắn.
"Human in the loop" thiên về AI thỉnh thoảng "ping" bạn một cái để xác nhận việc gì đó. Ví dụ Minus AI, nửa bên phải có một máy ảo, tôi có thể thấy trực tiếp nó đang làm gì trong trình duyệt, giống như một hộp trắng mở ra, tôi có thể biết đại khái Agent muốn làm gì.
Hai khái niệm này không phải đen-trắng, mà là một quang phổ. Hiện nay đa số là "in the loop", con người vẫn phải phê duyệt ở nhiều điểm then chốt. Lý do rất đơn giản, phần mềm chưa đến giai đoạn đó, có vấn đề thì luôn cần người chịu trách nhiệm. Vô-lăng và phanh chắc chắn không thể bỏ.
Có thể dự đoán, trong tương lai các nhiệm vụ lặp lại cao, kết quả cuối cùng là con người chỉ xem bản tóm tắt, mức độ tự động hóa sẽ rất cao. Với một số bài toán khó, ví dụ để AI xem báo cáo bệnh lý, chúng ta có thể điều cao "tỷ lệ dương tính giả" của Agent, khiến nó dễ dàng cảm thấy "có vấn đề", sau đó "on the loop" gửi các trường hợp này dưới dạng email cho bác sĩ con người. Như vậy, mặc dù bác sĩ con người cần xem xét lại nhiều trường hợp hơn, nhưng tất cả các trường hợp Agent phán đoán "âm tính" đều có thể được phê duyệt thuận lợi. Nếu chỉ 20% báo cáo bệnh lý thực sự khó, thì băng thông làm việc của bác sĩ con người đã được khuếch đại 5 lần. Vì vậy không cần quá lo lắng "in" hay "on", chỉ cần tìm được điểm kết hợp tốt, có thể làm tốt hợp tác người-máy.
Lý Quảng Mật: Câu hỏi của anh Bằng đằng sau thực ra ẩn chứa một cơ hội lớn, là "tương tác mới" và "con người với Agent hợp tác thế nào". Điều này có thể đơn giản hiểu là online (đồng bộ) và offline (bất đồng bộ). Ví dụ chúng ta họp livestream, phải online thời gian thực. Nhưng nếu tôi là CEO giao nhiệm vụ cho đồng nghiệp, tiến độ dự án là bất đồng bộ.
Ý nghĩa lớn hơn ở đây là, khi Agent được triển khai quy mô lớn, con người và Agent hợp tác tương tác thế nào, và Agent với Agent hợp tác tương tác thế nào, điều này rất đáng khám phá. Hiện nay chúng ta vẫn tương tác với AI qua văn bản, nhưng tương lai cách tương tác với Agent sẽ có nhiều hình thức. Một số có thể chạy tự động nền, một số cần con người theo dõi phía trước. Khám phá tương tác mới là cơ hội lớn.
07 Năng lực dư thừa, nhu cầu thiếu hụt, "ứng dụng killer" của Agent khi nào xuất hiện?
Trương Bằng: Coding Agent tổng thể vẫn xoay quanh đường kéo dài IDE. Tương lai có thay đổi không? Nếu mọi người đều đổ xô vào con đường này, người đến sau làm sao đuổi kịp Cursor?
Chung Khải Kỳ (Cage): IDE chỉ là một môi trường, sao chép lại một IDE có giá trị không lớn. Nhưng làm Agent trong IDE hoặc một môi trường tốt khác thì có giá trị. Tôi sẽ suy nghĩ người dùng của nó có phải chỉ là nhà phát triển chuyên nghiệp, hay có thể mở rộng ra "nhà phát triển bình dân" ngoài nhà phát triển chuyên nghiệp — những nhân viên văn phòng có nhu cầu tự động hóa.
Hiện nay thiếu gì? Không phải năng lực cung cấp, vì các sản phẩm như Cursor đã khuếch đại năng lực coding AI lên 10, thậm chí 100 lần. Trước đây tôi muốn làm một sản phẩm, cần thuê ngoài một đội IT, chi phí thử sai rất cao. Hiện tại về lý thuyết tôi chỉ cần nói một câu, tốn phí 20 đô la/tháng là có thể thử sai.
Hiện nay thiếu là nhu cầu. Mọi người đều dùng nhu cầu cũ áp dụng lên công nghệ mới, trạng thái "có búa thì tìm đinh". Nhu cầu hiện tại đa số là làm trang đích (Landing page) hoặc website đồ chơi cơ bản. Tương lai cần tìm ra hình thái sản phẩm tập trung. Điều này hơi giống khi động cơ gợi ý ra đời, nó là công nghệ tốt, sau đó xuất hiện một hình thái sản phẩm gọi là "luồng thông tin" (information feed), đưa động cơ gợi ý thực sự đến đại chúng. Nhưng lĩnh vực AI Coding chưa tìm được ứng dụng killer như "luồng thông tin".
Lý Quảng Mật: Tôi nghĩ Coding có thể chiếm tới 90% giá trị giai đoạn của toàn ngành mô hình lớn. Giá trị này lớn lên thế nào? Cảnh đầu tiên hiện nay vẫn là phục vụ 30 triệu lập trình viên toàn cầu. Tôi lấy ví dụ, Photoshop phục vụ 20-30 triệu nhà thiết kế chuyên nghiệp toàn cầu,门槛 rất cao. Nhưng khi Jianying, Canva, Meitu Xiuxiu ra đời, có thể 500 triệu hoặc hơn người dùng có thể sử dụng công cụ này, tạo ra nội dung nóng hơn.
Code có một lợi thế, nó là nền tảng biểu đạt sáng tạo. Trên 90% nhiệm vụ xã hội có thể biểu đạt qua Code, vì vậy nó có thể trở thành nền tảng sáng tạo. Trước đây门槛 phát triển ứng dụng rất cao, lượng lớn nhu cầu đuôi dài chưa được đáp ứng. Khi门槛 giảm mạnh, những nhu cầu này sẽ được kích hoạt. Tôi mong đợi "bùng nổ ứng dụng". Dữ liệu lớn nhất do Internet di động tạo ra là nội dung, trong khi đợt AI này tạo ra nội dung lớn nhất có thể là ứng dụng phần mềm mới. Giống như sự khác biệt giữa nền tảng video dài Youku, iQiyi và Douyin. Bạn có thể coi mô hình lớn như camera, trên đó có thể tạo ra các ứng dụng killer như Douyin và Jianying. Đây có thể là bản chất của "Vibe Coding" (lập trình phong cách), một nền tảng sáng tạo mới.
Trương Bằng: Để nâng cao giá trị đầu ra của Agent, đầu vào (input) cũng trở nên quan trọng. Nhưng về sản phẩm và kỹ thuật, có phương pháp nào nâng cao chất lượng đầu vào để đảm bảo đầu ra tốt hơn không?
Chung Khải Kỳ (Cage): Về sản phẩm, chúng ta không nên cho rằng người dùng dùng sản phẩm không tốt là lỗi người dùng. Phải đầu tư công sức vào từ then chốt nhất là "ngữ cảnh" (Context). Một Agent có thể thiết lập "nhận thức ngữ cảnh" (Context Awareness) không?
Ví dụ, nếu tôi viết mã trong một công ty internet lớn, Agent không chỉ xem mã trước mặt tôi, mà còn phải xem toàn bộ kho mã (Codebase) liên quan của công ty, thậm chí xem cuộc trò chuyện của tôi với trưởng sản phẩm, đồng nghiệp trên Feishu, và thói quen mã hóa và giao tiếp trước đây của tôi. Cung cấp toàn bộ ngữ cảnh này cho Agent, đầu vào của tôi mới hiệu quả hơn.
Vì vậy, với nhà phát triển Agent, then chốt nhất là phải làm tốt cơ chế ghi nhớ (Memory) và khả năng kết nối ngữ cảnh, đây cũng là một thách thức lớn trong hạ tầng (Infra) của Agent.

Thách thức Agent: Cơ chế ghi nhớ tốt và kết nối ngữ cảnh|Ảnh: Khoa học bán lẻ
Ngoài ra, với nhà phát triển, làm sao tạo dữ liệu khởi động lạnh cho học tăng cường, làm sao định nghĩa phần thưởng (Reward) rõ ràng rất quan trọng. Đằng sau phần thưởng này có nghĩa là, khi người dùng biểu đạt không rõ ràng, bạn làm sao chia nhỏ nhu cầu của họ. Ví dụ, Deep Research của OpenAI khi tôi hỏi không rõ, sẽ trước tiên đưa ra bốn câu hỏi định hướng. Trong quá trình tương tác với nó, tôi thực ra cũng đang làm rõ nhu cầu của mình.
Đối với người dùng hiện nay, chủ yếu vẫn là nghĩ cách biểu đạt nhu cầu rõ ràng, và làm sao nghiệm thu nhu cầu. Mặc dù không cần "bắt đầu từ đích", nhưng phải có kỳ vọng đại khái về tốt/xấu. Viết Prompt cũng phải như viết code, có chỉ thị rõ ràng và logic, để tránh đầu ra vô hiệu.
Lý Quảng Mật: Tôi bổ sung hai điểm. Thứ nhất, tầm quan trọng của ngữ cảnh. Chúng tôi trong nội bộ thường thảo luận, làm tốt ngữ cảnh, sẽ có cơ hội cấp độ Alipay, PayPal mới.
Trước đây thương mại điện tử xem doanh số (GMV), tương lai xem tỷ lệ hoàn thành nhiệm vụ. Hoàn thành nhiệm vụ, một bên là trí tuệ, một bên là ngữ cảnh. Ví dụ tôi muốn làm một website cá nhân, nếu cung cấp cho AI sổ ghi chú Notion, dữ liệu WeChat, dữ liệu email của tôi, nội dung website cá nhân chắc chắn rất phong phú.
Thứ hai, học tập độc lập. Sau khi xây dựng môi trường, Agent phải có thể lặp lại, điều này rất then chốt. Nếu không thể học tập và lặp lại liên tục, kết quả là bị chính mô hình nuốt chửng, vì mô hình chính là một hệ thống học tập. Đợt Internet di động trước, công ty không làm học máy và gợi ý đều không lớn. Đợt này nếu Agent không làm tốt học tập và lặp lại đầu cuối, tôi nghĩ cũng không thể lớn.
08 Dưới sự cạnh tranh của các gã khổng lồ, còn những thay đổi và cơ hội nào?
Trương Bằng: Chúng ta làm sao phán đoán trong tương lai năng lực Agent sẽ xuất hiện dưới dạng một giao diện siêu lớn, hay phân tán trong các tình huống khác nhau?
Chung Khải Kỳ (Cage): Tôi thấy một xu hướng lớn là, thứ nhất, chắc chắn là đa Agent (Multi-agent). Ngay cả khi hoàn thành một nhiệm vụ, trong sản phẩm như Cursor, Agent hoàn thiện mã và Agent làm kiểm thử đơn vị có thể là khác nhau, vì "tính cách" và điểm mạnh cần thiết khác nhau.
Thứ hai, lối vào có thay đổi không? Tôi nghĩ lối vào là vấn đề bậc hai. Điều xảy ra trước tiên là mọi người có nhiều Agent, và hợp tác với chúng. Đằng sau các Agent này sẽ hỗ trợ một mạng lưới, tôi gọi là "Botnet". Ví dụ trong tương lai mua sắm, trên 60% chi tiêu cố định có thể do Agent hoàn thành giúp tôi.
Trong kịch bản năng suất cũng vậy, trong tương lai cuộc họp hàng ngày của lập trình viên có thể bị thay thế bởi sự hợp tác giữa các Agent, chúng đẩy thông báo bất thường chỉ số và tiến độ phát triển sản phẩm. Khi điều này xảy ra, thay đổi lối vào mới có thể xuất hiện. Lúc đó, việc gọi API không còn chủ yếu do con người gọi, mà là các Agent gọi lẫn nhau.
Trương Bằng: Những gã khổng lồ có năng lực, như OpenAI, Anthropic, Google, Microsoft, trong Agent đang ở trạng thái quyết sách và hành động như thế nào?
Lý Quảng Mật: Từ khóa trong đầu tôi là "phân hóa". Năm ngoái mọi người đều đuổi theo GPT-4, nhưng bây giờ có nhiều việc hơn để làm, các bên bắt đầu phân hóa.
Anthropic là bên đầu tiên phân hóa. Vì nó chậm hơn OpenAI, năng lực tổng hợp không mạnh bằng, nên nó tập trung vào Coding. Tôi cảm giác nó đã nắm được lá bài lớn đầu tiên dẫn tới AGI, chính là Coding Agent. Họ có thể cho rằng, thông qua Coding có thể hiện thực hóa AGI, có thể mang lại năng lực tuân thủ chỉ thị và năng lực Agent, đây là một vòng khép kín logic.
Nhưng OpenAI có nhiều lá bài lớn hơn. Lá đầu tiên là ChatGPT, Sam Altman có thể muốn biến nó thành sản phẩm có 1 tỷ người dùng hoạt động hàng ngày. Lá thứ hai là chuỗi mô hình "o" (GPT-4o, v.v.), kỳ vọng rất cao, có thể mang lại nhiều năng lực tổng quát hơn. Lá thứ ba là đa phương tiện, năng lực suy luận đa phương tiện của nó đã tăng, tương lai cũng thể hiện được trong tạo sinh. Vì vậy, Anthropic nắm một lá bài lớn, OpenAI nắm ba lá.
Một gã khổng lồ khác là Google. Tôi nghĩ đến cuối năm nay, Google có thể đuổi kịp toàn diện. Vì nó vừa có TPU, vừa có Google Cloud, có mô hình Gemini hàng đầu, lại có Android và Chrome. Trên toàn cầu không tìm được công ty thứ hai sở hữu tất cả các yếu tố này, lại gần như không phụ thuộc bên ngoài. Năng lực đầu cuối của Google rất mạnh, nhiều người lo ngại nghiệp vụ quảng cáo của nó bị lật đổ, nhưng tôi cảm giác tương lai nó có thể tìm được cách kết hợp sản phẩm mới, từ một động cơ thông tin biến thành một động cơ nhiệm vụ.
Nhìn Apple, vì không có năng lực AI riêng, hiện nay cập nhật rất bị động. Còn Microsoft nổi tiếng với nhà phát triển, nhưng Cursor và Claude thực ra đã giành mất nhiều sự chú ý của nhà phát triển. Tất nhiên Microsoft có nền tảng rất vững, có GitHub và VS Code, nhưng nó cũng phải sở hữu năng lực AGI và mô hình rất mạnh. Vì vậy bạn thấy nó cũng tuyên bố mô hình ưu tiên của GitHub một trong số đó là Claude, và cập nhật sản phẩm nhà phát triển của mình. Microsoft phải giữ vững mảng nhà phát triển, nếu không nền móng sẽ mất.
Vì vậy mọi người bắt đầu phân hóa. Có thể OpenAI muốn trở thành Google tiếp theo, Anthropic muốn trở thành Windows tiếp theo (sống bằng API).
Trương Bằng: Vậy hạ tầng (Infra) liên quan đến Agent có những thay đổi và cơ hội nào?
Chung Khải Kỳ (Cage): Agent có vài thành phần then chốt. Ngoài mô hình, thứ nhất là môi trường (Environment). Trong giai đoạn đầu phát triển Agent, 80% vấn đề nằm ở môi trường. Như AutoGPT thời kỳ đầu, hoặc dùng Docker khởi động rất chậm, hoặc triển khai trực tiếp trên máy tính cá nhân rất không an toàn. Nếu một Agent phải cùng tôi "đi làm", tôi phải cấp cho nó một "máy tính", vì vậy cơ hội môi trường xuất hiện.
Cấp "máy tính" có hai nhu cầu lớn:
1. Máy ảo / Hộp cát: Cung cấp môi trường thực thi an toàn. Làm sai có thể hoàn tác, quá trình thực thi không làm hại môi trường thực tế, và có thể khởi động nhanh, chạy ổn định. Các công ty như E2B, Modal Labs đang cung cấp các sản phẩm này.
2. Trình duyệt: Yêu cầu truy xuất thông tin là lớn nhất, Agent cần đến các website khác nhau để thu thập thông tin. Crawler truyền thống dễ bị chặn, vì vậy cần xây một trình duyệt chuyên dụng, hiểu thông tin cho Agent. Từ đó sinh ra các công ty như Browserbase, Browser Use.
Thành phần thứ hai là ngữ cảnh (Context). Bao gồm:
-
Truy xuất (Retrieval): Công ty RAG truyền thống vẫn tồn tại, nhưng cũng có công ty mới, ví dụ MemGPT, phát triển công cụ quản lý ngữ cảnh và bộ nhớ nhẹ cho AI Agent.
-
Phát hiện công cụ: Tương lai công cụ sẽ rất nhiều, cần một nền tảng như "Dianping" (大众点评) để giúp Agent phát hiện và lựa chọn công cụ tốt.
-
Bộ nhớ (Memory): Agent cần một hạ tầng có thể mô phỏng kết hợp phức tạp giữa trí nhớ ngắn hạn và dài hạn của con người.
Thành phần thứ ba là công cụ (Tools). Bao gồm tìm kiếm đơn giản, cũng bao gồm thanh toán phức tạp, phát triển backend tự động, v.v.
Cuối cùng, khi năng lực Agent mạnh hơn, một cơ hội quan trọng là an ninh Agent (Agent Security).
Lý Quảng Mật: Hạ tầng Agent rất quan trọng. Chúng ta có thể "bắt đầu từ đích" mà nghĩ, ba năm sau, khi hàng nghìn tỷ Agent thực hiện nhiệm vụ trong thế giới số, nhu cầu hạ tầng sẽ quá lớn, điều này sẽ tái cấu trúc toàn bộ điện toán đám mây và thế giới số hóa.
Nhưng hiện nay chúng ta chưa biết Agent nào có thể lớn, nó cần hạ tầng như thế nào. Vì vậy hiện tại là cửa sổ tốt đẹp cho người sáng lập, có thể cùng các công ty Agent làm tốt chung tay thiết kế (co-design) và sáng tạo công cụ hạ tầng.
Tôi nghĩ hiện nay quan trọng nhất, thứ nhất là máy ảo, thứ hai là công cụ. Ví dụ tìm kiếm Agent tương lai chắc chắn khác tìm kiếm con người, sẽ tạo ra nhu cầu tìm kiếm máy khổng lồ. Hiện nay toàn mạng hàng ngày tìm kiếm của con người có thể 20 tỷ lần, tương lai tìm kiếm máy có thể vài nghìn tỷ, thậm chí hàng chục nghìn tỷ lần. Loại tìm kiếm này không cần tối ưu sắp xếp cho con người, có thể một cơ sở dữ liệu lớn là đủ, ở đây có cơ hội khởi nghiệp và tối ưu chi phí lớn.
09 Khi AI không còn chỉ là mô hình lớn, nó sẽ tiến hóa theo hướng nào?
Trương Bằng: Agent luôn không thể tách rời mô hình, đứng ở hiện tại, bạn cảm thấy công nghệ mô hình đã đi qua những bậc thang then chốt nào trong hai năm qua?
Lý Quảng Mật: Tôi nghĩ các mốc then chốt (milestone) có thể chỉ có hai. Một là mô hình GPT-4 đại diện cho mô hình luật mở rộng (Scaling Law), tức là trong giai đoạn tiền huấn luyện, mở rộng quy mô vẫn hiệu quả, nó mang lại năng lực tổng quát hóa phổ quát.
Mốc then chốt lớn thứ hai là mô hình chuỗi "o" đại diện cho mô hình "mô hình biết suy nghĩ". Nó thông qua thời gian suy nghĩ dài hơn (chuỗi suy nghĩ), rõ rệt nâng cao năng lực suy luận.
Tôi cho rằng hai mô hình này là cánh tay trái phải của AGI hiện nay. Trên cơ sở này, Scaling Law còn xa mới dừng, mô hình suy nghĩ cũng sẽ tiếp tục. Ví dụ, trong đa phương tiện có thể tiếp tục Scaling, cũng có thể thêm năng lực suy nghĩ của chuỗi "o" vào đa phương tiện, như vậy đa phương tiện sẽ có năng lực suy luận dài hơn, khả năng kiểm soát và nhất quán khi tạo sinh sẽ rất tốt.
Cảm giác của tôi là, hai năm tới có thể tiến bộ nhanh hơn hai năm trước. Hiện tại có thể đang ở trạng thái hàng nghìn nhà khoa học AI hàng đầu toàn cầu cùng thúc đẩy thời kỳ phục hưng công nghệ nhân loại, tài nguyên dồi dào, nền tảng đã có, nhiều nơi có thể đột phá.
Trương Bằng: Bạn kỳ vọng trong một hai năm tới, trong lĩnh vực AI sẽ thấy hiện thực hóa và bước nhảy công nghệ nào?
Chung Khải Kỳ (Cage): Thứ nhất là đa phương tiện. Hiện nay việc hiểu và tạo sinh đa phương tiện vẫn rời rạc, tương lai chắc chắn sẽ hướng tới "thống nhất lớn", tức là hiểu và tạo sinh tích hợp. Điều này sẽ cực kỳ mở rộng trí tưởng tượng sản phẩm.
Thứ hai là học tập độc lập. Tôi rất thích khái niệm "kỷ nguyên kinh nghiệm" (the era of experience) do Richard Sutton (cha đẻ học tăng cường) đề xuất, tức là AI nâng cao năng lực thông qua trải nghiệm thực hiện nhiệm vụ trực tuyến. Trước đây điều này không thấy bóng dáng, vì không có kiến thức thế giới nền tảng. Nhưng từ năm nay trở đi, điều này sẽ là việc liên tục xảy ra.

Richard Sutton, người đoạt giải thưởng Turing 2024|Ảnh: Amii
Thứ ba là bộ nhớ. Nếu mô hình thực sự có thể làm tốt bộ nhớ Agent trên phương diện sản phẩm và kỹ thuật, đột phá sẽ rất lớn. Độ bám dính sản phẩm mới thực sự xuất hiện. Tôi cảm giác từ khoảnh khắc GPT-4o bắt đầu có bộ nhớ, tôi mới thực sự có độ bám dính với ứng dụng ChatGPT.
Cuối cùng là tương tác mới. Liệu có tương tác mới không còn là hộp nhập văn bản? Vì ngưỡng gõ phím thực ra khá cao. Tương lai liệu có cách tương tác phù hợp hơn với trực giác và bản năng con người? Ví dụ, tôi có một sản phẩm AI "luôn bật" (Always-on), nó liên tục nghe tôi nói chuyện ở nền, suy nghĩ bất đồng bộ, ở khoảnh khắc tôi bừng sáng ý tưởng, có thể bắt được ngữ cảnh then chốt. Tôi cảm thấy đây là điều tôi kỳ vọng.
Trương Bằng: Đúng vậy, thách thức và cơ hội hiện nay song hành. Một mặt, chúng ta không thể bị "đốt cháy" bởi tốc độ phát triển công nghệ, phải duy trì theo dõi liên tục. Mặt khác, sản phẩm AI hiện nay đang chuyển từ "công cụ" sang "mối quan hệ". Con người không thiết lập mối quan hệ với công cụ, nhưng sẽ làm vậy với một AI có trí nhớ, hiểu bạn và có thể "thấu hiểu tâm tư" với bạn. Mối quan hệ này về bản chất là thói quen và quán tính, cũng là rào cản quan trọng trong tương lai.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News














