
Phỏng vấn đối tác SIG Tim Gong: AI agent không phải là một công cụ, mà là một loài mới hợp tác cùng con người
Tuyển chọn TechFlowTuyển chọn TechFlow

Phỏng vấn đối tác SIG Tim Gong: AI agent không phải là một công cụ, mà là một loài mới hợp tác cùng con người
Sự hợp tác giữa con người sáng tạo và máy móc sẽ là trạng thái làm việc chủ đạo trong tương lai.
Người tham gia đối thoại:
Vương Phong: Người sáng lập Bluehole Interactive, người phát động Mars Finance và Element
Tim Gong: Cộng sự sáng lập SIG Trung Quốc, Chủ tịch ByteTrade
Chú thích của biên tập viên: Vào đêm Giao thừa năm 2023, Vương Phong đã có một cuộc trao đổi với Tim Gong, nội dung xoay quanh việc sắp xếp thông tin, entropy, chuỗi công khai (public blockchain) và tương lai của Web3 (liên kết: Vương Phong đối thoại đêm Giao thừa cùng Tim Gong: Về việc sắp xếp thông tin, entropy và ngày mai của Web3). Cuộc đối thoại này đã diễn ra được một năm. Trong năm qua, ChatGPT bùng nổ mạnh mẽ, các mô hình ngôn ngữ lớn (LLMs) đã tác động sâu sắc đến việc tạo ra và phân phối thông tin. Nhận thức của Tiến sĩ Tim Gong đã có những cập nhật nào? ByteTrade do ông lãnh đạo đã thực hiện những công việc gì? Trước dịp Giáng sinh, Vương Phong tiếp tục có cuộc đối thoại lần hai với Tim Gong.
Tháng 6 năm 2022, SIG tuyên bố dẫn vốn đầu tư vòng mới trị giá 40 triệu USD cho ByteTrade – nền tảng phần mềm cơ sở cho ứng dụng thông tin Web3 có trụ sở tại Singapore. Ông Tim Gong, cộng sự sáng lập của SIG Trung Quốc, đảm nhận chức vụ Chủ tịch công ty. Ông tốt nghiệp chuyên ngành Vật lý tại Đại học Giao thông Thượng Hải, sau đó lấy bằng Tiến sĩ Kỹ thuật Điện tử tại Đại học Princeton. SIG là nhà đầu tư ban đầu của ByteDance và cũng luôn là cổ đông lớn nhất.
Trong cuộc đối thoại đêm Giao thừa năm trước, Vương Phong và Tim Gong đã thảo luận về chủ đề "Tại sao cần phân phối thông tin phi tập trung", hay còn gọi là Web3 mà mọi người thường nói đến. Ngay sau đó, OpenAI đã công bố ChatGPT. Trong suốt một năm vừa qua, LLMs đã ảnh hưởng sâu sắc đến việc tạo ra và phân phối thông tin. Nhiều công ty Web3, điện toán đám mây hoặc AI được SIG đầu tư trong năm qua cũng đã kịp thời nắm bắt cơ hội và điều chỉnh định hướng sản phẩm. Cùng xem Tim Gong đã có những suy nghĩ cập nhật gì trong năm vừa qua.
Dưới đây là toàn văn cuộc đối thoại giữa Vương Phong và Tim Gong:
1. Hiện nay, nhiều doanh nhân và nhà đầu tư đang bàn luận về các sản phẩm và công ty "AI native". Theo ông, thế nào là một sản phẩm AI native?
Có lẽ định nghĩa phổ biến nhất là “những sản phẩm không thể hoạt động nếu thiếu AI”. Ví dụ, các sản phẩm như copilot có thể chưa đạt chuẩn AI native. Bởi vì dù không có AI, Google Search, Microsoft Office hay GitHub Codespaces vẫn là những sản phẩm hữu ích; AI chỉ giúp nâng cao trải nghiệm theo cách gia tăng dần (incrementally).
Nhưng những sản phẩm như AI agent – nơi người dùng chỉ cần giao tiếp bằng ngôn ngữ tự nhiên, còn AI sẽ hiểu, lên kế hoạch, suy luận và thực thi toàn bộ nhiệm vụ – thì đích thực là AI native. AI agent không phải là một công cụ, mà là một loài sinh vật mới hợp tác cùng con người.
Từ “con người tìm kiếm thông tin” (điển hình là Google với công cụ tìm kiếm), đến “thông tin tìm đến con người” (điển hình là ByteDance với hệ thống đề xuất), rồi đến “AI cá nhân (personal AI agent)” hỗ trợ con người sản xuất và tiêu thụ thông tin – chúng ta liên tục phát minh ra các phương pháp mới nhằm đạt được trạng thái giảm entropy.
2. Là một loài sinh vật mới, liệu AI agent có thay thế con người không?
Tất nhiên là không. Tôi nhớ đến quan điểm gần đây của giáo sư Tăng Minh: “Sự hợp tác giữa con người giàu sáng tạo và máy móc sẽ là trạng thái làm việc chủ đạo trong tương lai.”
Hiện nay, thị trường định nghĩa khá rộng về AI agents. Bất kỳ ứng dụng nào cung cấp cho mô hình lớn tri thức, trí nhớ, giác quan (“mắt” và “tai”), cùng khả năng hành động (“tay”) đều được coi là agent. Tất nhiên, agent cũng bao gồm cả sự mở rộng trực tiếp của con người do máy móc thực hiện, ví dụ như robot được điều khiển bởi mô hình lớn, thiết bị IoT thông minh cá nhân hoặc môi trường song sinh kỹ thuật số (digital twin). Hiện nay, khoảng 100% các công ty khởi nghiệp ứng dụng mô hình lớn trên thị trường đều đang tập trung vào phát triển agents.
3. Nếu AI agent là hình thái sản phẩm chính trong tương lai, thì điều này sẽ ảnh hưởng như thế nào đến toàn bộ hệ sinh thái phần mềm?
Tôi nhớ giáo sư Tăng Minh từng nói: “Hệ sinh thái phần mềm Web2 khiến con người trở thành công cụ tốt hơn.” Tôi cho rằng hệ sinh thái phần mềm trong tương lai sẽ chủ yếu phục vụ AI agent. Vì con người chỉ cần tương tác với các AI agent, còn tất cả phần mềm khác sẽ không còn liên hệ trực tiếp với con người nữa. Các agent hay còn gọi là “robot” có thể giúp bạn thu thập thông tin, giúp bạn kiếm tiền (làm việc hoặc giao dịch), giúp bạn học tập, thậm chí giúp bạn kết nối xã hội. Agent cá nhân của bạn sẽ là người bạn đồng hành đáng tin cậy và hữu ích nhất – bạn chỉ cần tương tác với nó.
Ví dụ, gần đây trong lĩnh vực mô hình lớn, kỹ thuật prompt engineering (kỹ thuật xây dựng lời nhắc) rất phổ biến, bao gồm cả RAG – kỹ thuật sử dụng cơ sở tri thức riêng để bổ sung ngữ cảnh cho prompt – đều nhắm tới mục tiêu phục vụ AI agent. Đây mới chính là AI native ở cấp độ phần mềm nền tảng.
Gần đây, người sáng lập Mistral AI cũng nói rằng các mô hình LLM mã nguồn mở nhỏ hơn, chẳng hạn như mô hình 7B tham số, có thể cho phép nhà phát triển tự vận hành và có đủ “trí tuệ” nổi bật, có thể là điểm ngọt ngào (sweet spot) cho đổi mới agent.
4. Nói đến các LLM mã nguồn mở, cũng có người không lạc quan. Những sản phẩm mới được OpenAI công bố tại sự kiện Dev Day cho thấy lợi thế tuyệt đối của một công ty công nghệ khổng lồ vươn lên chỉ trong một đêm. Với ưu thế tiên phong quá lớn của OpenAI, liệu tương lai của AI có bị tập trung hóa?
Hiện nay, các mô hình lớn mã nguồn mở đang ngày càng được cải tiến nhanh chóng và cạnh tranh mạnh mẽ hơn. Mới hôm trước tôi kiểm tra trên Hugging Face, chỉ riêng các mô hình mã nguồn mở được huấn luyện lại hoặc tinh chỉnh dựa trên kiến trúc Llama2 đã có hàng ngàn phiên bản, và khoảng cách hiệu suất của chúng so với OpenAI trên các bảng xếp hạng đang liên tục thu hẹp.
Hơn nữa, các sản phẩm được OpenAI công bố tại Dev Day – từ tinh chỉnh mô hình, cơ sở tri thức RAG, đầu ra cấu trúc hóa đến việc dàn dựng ứng dụng – đều đã có các giải pháp mã nguồn mở tốt từ trước. Thậm chí có thể nói, ở cấp độ ứng dụng, OpenAI đang đi theo và bắt chước các đổi mới từ mã nguồn mở.
5. Tuy nhiên, việc nghiên cứu và suy luận LLM đòi hỏi lượng lớn tài nguyên GPU, do đó rất dễ dẫn đến tập trung hóa. Nhiều người cho rằng khoảng cách giữa các tập đoàn lớn giàu GPU và các công ty khởi nghiệp nghèo GPU sẽ ngày càng nới rộng.
Tôi không đồng ý với quan điểm này. Đơn giản là, mô hình lớn mã nguồn mở quan trọng nhất hiện nay – llama2 – không phải do Meta, một công ty giàu GPU, phát hành sao? Trong khi đó, Google, Microsoft, Amazon – những công ty cũng giàu GPU – đến nay vẫn chưa thấy công bố sản phẩm nào gây tiếng vang. Rõ ràng GPU không phải là điều kiện đủ cho đổi mới. Đổi mới phụ thuộc vào con người, chứ không phải GPU. Lợi thế lớn nhất của mã nguồn mở là có thể tập hợp con người lại với nhau. Hơn nữa, khi sức mạnh tính toán GPU ngày càng rẻ hơn, mâu thuẫn chính trong việc huấn luyện mô hình có thể sẽ ngày càng chuyển sang dữ liệu, đặc biệt là dữ liệu riêng (private data), chứ không phải sức mạnh tính toán.
Thậm chí, việc sở hữu nhiều GPU cũng không phải là điều kiện cần thiết cho đổi mới mô hình lớn. Trên các máy tính cá nhân và trung tâm dữ liệu biên (edge data centers) có lượng lớn GPU dư thừa. Chúng có thể không phù hợp để huấn luyện mô hình, nhưng hoàn toàn có thể tận dụng cho các công việc chiếm 95% khối lượng ứng dụng như tinh chỉnh và suy luận – những tài nguyên GPU phi tập trung này rất có giá trị.
Tôi còn kỳ vọng hơn vào các đột phá công nghệ tiếp theo, ví dụ như chạy suy luận mô hình lớn bằng CPU. Xã hội có lượng lớn sức mạnh tính toán CPU và bộ nhớ đang nằm không sử dụng. Hiện nay có rất nhiều nghiên cứu tiên phong trong lĩnh vực này. Bao gồm cả các công ty trong danh mục đầu tư của chúng tôi, ví dụ Second State, đã đạt được khả năng chạy mô hình lớn ngoại tuyến trên máy tính xách tay cá nhân hoặc thiết bị biên IoT.
Tôi rất kỳ vọng vào tương lai của các ứng dụng mô hình AI lớn phi tập trung.
6. Ông đã nói về khả thi của các AI agent phi tập trung. Nhưng liệu chúng có thực sự cần thiết không? Trong viễn cảnh của ông, tính phi tập trung giải quyết nhu cầu gì của người dùng?
Đồng thời, chính vì AI Agent có khả năng nắm giữ toàn bộ đầu vào và đầu ra thông tin của mỗi cá nhân, chúng ta cần đặt niềm tin rất cao vào nó. Chúng ta không thể chấp nhận việc nó bị người khác kiểm soát, cũng khó chịu đựng sự định hướng thương mại từ các nhà quảng cáo. Điều này quyết định rằng các agent phải là riêng tư, phi tập trung. Cá nhân và doanh nghiệp đều cần cơ sở hạ tầng phi tập trung.
Hơn nữa, trợ lý robot cá nhân, thiết bị IoT thông minh hoặc môi trường song sinh kỹ thuật số vốn dĩ là những máy tính thuộc sở hữu của người dùng, về bản chất đã là phi tập trung. Tại ByteTrade, chúng tôi gọi cơ sở hạ tầng này là “đám mây biên riêng tư” (private edge cloud).
Tuy nhiên, các agent riêng tư cần phải hợp tác với nhau. Như con người vậy, mỗi agent cần trao đổi tài nguyên với các agent khác. Trao đổi này có thể là sức mạnh tính toán (ví dụ, agent của bạn có GPU rảnh), thông tin, tài sản, hoặc quyền truy cập trong xã hội thực (ví dụ, agent của bạn có giấy phép chính phủ để giao dịch một loại tài sản bị hạn chế). Tất cả đều là những cơ hội hoàn toàn mới.
7. Sự hợp tác giữa người với người dựa vào mối quan hệ tổ chức. Vậy sự hợp tác giữa người với máy móc dựa vào cái gì?
Nền tảng của nền văn minh thương mại hiện đại là tiền tệ – mạng lưới trao đổi giá trị giữa con người với con người. Các agent thông minh của chúng ta cũng cần một mạng lưới trao đổi giá trị, để các agent và giữa agent với con người có thể hợp tác thương mại.
Tiến sĩ Lý Phi Phi gần đây từng nói: “Khi chúng ta nghĩ về công nghệ này, chúng ta cần đặt phẩm giá con người, hạnh phúc con người – việc làm của con người – vào trung tâm của sự cân nhắc.” Việc tương tác và hợp tác giữa con người và AI agent phải duy trì phẩm giá con người.
Ngày nay, chúng ta đã có những công nghệ nền tảng cho mạng lưới này – đó là công nghệ sổ cái phi tập trung dựa trên blockchain. Toàn bộ cộng đồng crypto và Web3 đã thử nghiệm và đổi mới mạnh mẽ hệ thống giao dịch ngang hàng phi tập trung. Tại ByteTrade, chúng tôi gọi đóng góp có thể định lượng và giao dịch của agent là Proof of Intelligence (PoI). “Trí tuệ” ở đây mang nghĩa rộng – là kết quả của lao động trí tuệ con người hoặc máy móc.
8. Liệu mỗi người trên thế giới đều cần chấp nhận một DID (danh tính phi tập trung) không?
WorldCoin của Sam Altman nói về Proof of Personhood (bằng chứng về nhân dạng). Là người sáng lập OpenAI, ông ấy nhận ra rằng trong thế giới AI tương lai, con người sẽ cần “tự chứng minh bản thân” để được tham gia vào mạng lưới giá trị. DID chỉ là một phương tiện kỹ thuật cụ thể để hiện thực hóa tầm nhìn này.
Proof of Intelligence của ByteTrade đưa con người và AI agent thông minh vào cùng một mạng lưới để trao đổi giá trị. Theo chúng tôi, các kịch bản chính lúc ban đầu có thể là agent học theo sở thích của con người, rồi đại diện họ tương tác với các agent khác. Ví dụ:
-
Một agent có thể là bản sao song sinh của người dùng trong thế giới VR, tương tác với các agent khác trong thế giới số.
-
Một agent có thể bán tài nguyên GPU rảnh trên nút của mình để đổi lấy tài nguyên lưu trữ rảnh từ một agent khác.
-
Một agent có thể sở hữu một mô hình lớn được tinh chỉnh tốt trong một lĩnh vực cụ thể (ví dụ, người đồng hành con người của agent là một chuyên gia ngành). Nó có thể “cho thuê” mô hình này cho các agent khác.
-
Một agent có thể sở hữu dữ liệu riêng giúp các agent khác giải quyết tốt hơn một loại vấn đề nhất định. Nó có thể bán dữ liệu này, hoặc thậm chí cung cấp dịch vụ tính toán dựa trên dữ liệu đó.
-
Một agent có thể vận hành một nút stake cho DAO hoặc chuỗi công khai, chia sẻ lợi nhuận với các agent tăng thêm quỹ stake.
Tất cả các trao đổi giữa các agent này đều là biểu hiện cụ thể của PoI. Những PoI này trên blockchain có thể có nhiều hình thức biểu hiện khác nhau. Ví dụ, tài nguyên tính toán đồng nhất có thể là token thay thế được (fungible tokens), trong khi dữ liệu hoặc thuật toán đặc biệt, duy nhất có thể là NFT. Việc định giá cụ thể cho “trí tuệ” này sẽ do mạng RFQ phi tập trung (ví dụ Otomic) hoặc sàn giao dịch NFT (ví dụ Element) thực hiện.
9. Rõ ràng, một lực lượng khổng lồ khác thúc đẩy sự tập trung hóa AI đến từ chính phủ. Dù là ở Trung Quốc hay Mỹ, các chuyên gia trong ngành AI đều không nghi ngờ rằng hai chính phủ này đang cố gắng “quản lý” các mô hình lớn. Trong giới đầu tư và khởi nghiệp, nhiều người cho rằng quản lý sẽ ảnh hưởng đến đổi mới – ông nghĩ sao về điều này?
Tôi cho rằng rủi ro gây hại cho xã hội từ mô hình lớn, hay thậm chí AGI, là có thật. Nhưng giải pháp nên dựa vào đổi mới công nghệ và tự điều tiết ngành. Ví dụ, mô hình lớn đương nhiên có thể tạo tin giả, nhưng nó cũng có thể phát hiện tin giả. Mỗi agent của chúng ta có thể độc lập xác định tính chân thực của thông tin, và kết quả của chúng cũng có thể được ghi lại dưới dạng NFT trên blockchain. Ví dụ, agent của A sử dụng mô hình của B và dữ liệu của A để tạo một video ngắn cực kỳ chân thực, A sẽ đồng thời phát hành một NFT để chứng minh nguồn gốc video đó. Như vậy bất kỳ ai xem video đều có thể truy xuất nguồn gốc.
Nếu các agent khác nhau có tranh cãi về tính chân thực của thông tin, PoI còn cung cấp một cơ chế tốt để cộng đồng đạt được sự đồng thuận.
Elon Musk đã thực hiện thành công mô hình community notes trên X, cho phép người dùng bỏ phiếu về nội dung – xét về tổng thể là một thử nghiệm rất thành công. Nhưng từ “cuộc chiến nội bộ” trong hội đồng quản trị OpenAI, chúng ta cũng thấy rằng bỏ phiếu mà không chịu rủi ro (no skin in the game) là rất nguy hiểm, dễ bị lợi dụng.
Việc sử dụng AI agents có thể mở rộng quy mô việc bỏ phiếu về tính chân thực nội dung. Và PoI là một cơ chế kinh tế, giúp các Agents và con người đứng sau chúng phải trả chi phí cho lá phiếu – tức là có “skin in the game”. Tôi rất mong chờ các dự án khởi nghiệp theo hướng này!
10. Nói về các công ty khởi nghiệp, liệu ByteTrade – nơi ông làm Chủ tịch – đã bắt đầu triển khai những việc này chưa?
Đúng vậy, ByteTrade khi thành lập năm ngoái đã muốn kết nối tài nguyên tính toán thuộc về mỗi người, xây dựng một “đám mây cá nhân” phi tập trung. Điều này không khác gì so với những gì chúng ta đang nói về Agent hôm nay. Thay đổi chính trong năm qua là AI đã trở nên mạnh mẽ hơn, do đó các tình huống ứng dụng và nhu cầu về AI agent đã lên một bậc mới. Đối với ByteTrade, trong năm tới chúng tôi sẽ lần lượt công bố vài mô-đun sản phẩm.
-
Terminus OS là sản phẩm đám mây cá nhân của chúng tôi. Nó cung cấp một nền tảng tính toán phi tập trung, nơi mỗi người có thể chạy các mô hình AI lớn mã nguồn mở và các agent.
-
Terminus sẽ được cài sẵn một số ứng dụng cốt lõi, đặc biệt là các ứng dụng tài chính hoặc blockchain yêu cầu bảo mật cao. Ví dụ như ví, DID xác thực danh tính, v.v.
-
Terminus Marketplace là một chợ ứng dụng phi tập trung. Cả ByteTrade và các nhà phát triển bên thứ ba đều có thể phát hành ứng dụng tại đây, như AI agents, công cụ đề xuất nội dung, robot giao dịch tự động, v.v.
-
Otomic là mạng giao dịch dựa trên RFQ của chúng tôi. Trên đó, các robot chạy trong Terminus sẽ báo giá và tự động thực thi giao dịch. Cơ chế RFQ phi tập trung này có thể giao dịch hầu hết các tài sản số và phái sinh truyền thống lẫn crypto.
ByteTrade vừa cung cấp cơ sở hạ tầng phát triển, phát hành và vận hành phi tập trung cho các mô hình lớn và AI agent mã nguồn mở, vừa xây dựng một mạng trao đổi giá trị PoI dựa trên blockchain công khai để giúp sự hợp tác giữa các AI agent trở thành hiện thực. Rất mong năm tới có cơ hội thảo luận sâu hơn với mọi người về những vấn đề này!
Tuyệt vời, cảm ơn Tiến sĩ Gong đã dành thời gian hôm nay, chúng tôi rất mong đợi sản phẩm của ByteTrade!
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News











