
ai16z, Virtuals, MyShell và các nhà sáng lập dự án hàng đầu khác trao đổi sâu: Thảo luận về sự phát triển của AI Agent, kinh tế học token và viễn cảnh hợp tác giữa con người với máy móc trong tương lai
Tuyển chọn TechFlowTuyển chọn TechFlow

ai16z, Virtuals, MyShell và các nhà sáng lập dự án hàng đầu khác trao đổi sâu: Thảo luận về sự phát triển của AI Agent, kinh tế học token và viễn cảnh hợp tác giữa con người với máy móc trong tương lai
Việc mã hóa token có thể hỗ trợ tiến bộ công nghệ agent thông minh và khơi dậy sức sống cộng đồng như thế nào?
Tổng hợp & Biên dịch: TechFlow

Khách mời:
Shaw, đối tác của ai16z;
Karan, đồng sáng lập Nous Research;
Ethan, đồng sáng lập MyShell;
Justin Bennington, Somewheresy, CEO CENTS;
EtherMage, đóng góp hàng đầu tại Virtuals;
Tom Shaughnessy, cộng sự sáng lập Delphi Ventures
Nguồn podcast: Delphi Digital
Tựa đề gốc: Crypto x AI Agents: The Definitive Podcast with Ai16z, Virtuals, MyShell, NOUS, and CENTS
Ngày phát hành: 23 tháng 11 năm 2024
Thông tin nền tảng
Hãy cùng tham gia Shaw (Ai16z), Karan (Nous Research), Ethan (MyShell), Somewheresy (CENTS), EtherMage (Virtuals) và Tom Shaughnessy từ Delphi trong một buổi thảo luận bàn tròn đặc biệt. Sự kiện này quy tụ những nhân vật hàng đầu trong lĩnh vực mã hóa và tác nhân trí tuệ nhân tạo (AI), cùng nhau thảo luận về sự tiến hóa của các sinh thể kỹ thuật số tự trị và tương lai của cách con người tương tác với AI.
Những điểm nổi bật trong cuộc thảo luận:
▸ Sự bùng nổ nhanh chóng của các tác nhân AI trên mạng xã hội và ảnh hưởng sâu rộng đến thế giới Web3
▸ Cách thức mã thông báo (token) hóa trong hệ sinh thái mã hóa thúc đẩy công nghệ tác nhân và khơi dậy sức sống cộng đồng
▸ So sánh ưu thế mô hình đào tạo phi tập trung với các nền tảng AI tập trung
▸ Khám phá sâu về việc nâng cao tính tự trị của tác nhân và con đường hướng tới Trí tuệ nhân tạo tổng quát (AGI)
▸ Cách các tác nhân AI tích hợp sâu với DeFi và các nền tảng xã hội
Giới thiệu bản thân và tiểu sử nhóm
Trong phần podcast này, người dẫn chương trình Tom mời một vài khách mời đến từ các dự án khác nhau để thảo luận chủ đề liên quan đến tiền mã hóa và tác nhân AI. Mỗi vị khách mời lần lượt giới thiệu bản thân, chia sẻ quá trình hình thành và dự án mà họ đang tham gia.
Giới thiệu khách mời
-
Justin Bennington: Là người sáng lập Somewhere Systems, đồng thời là nhà sáng tạo ra Sentience.
-
Shaw: Một nhà phát triển Web3 lâu năm, sáng lập ai16z, phát triển dự án Eliza hỗ trợ nhiều ứng dụng xã hội và trò chơi, là người đóng góp nhiệt huyết cho cộng đồng mã nguồn mở.
-
Ethan: Đồng sáng lập MyShell, cung cấp một cửa hàng ứng dụng và công cụ luồng làm việc giúp các nhà phát triển xây dựng nhiều ứng dụng AI như tạo ảnh, chức năng giọng nói.
-
EtherMage: Đến từ Virtues Protocol, đội ngũ có xuất thân từ Imperial College London, tập trung thúc đẩy quyền sở hữu chung và đóng góp trọng tâm cho tác nhân, xây dựng các tiêu chuẩn để người dùng dễ dàng truy cập vào tác nhân.
-
Karan: Là một trong những người đồng sáng lập NOUS Research, tạo ra mô hình Hermes – nền tảng cơ sở cho nhiều hệ thống tác nhân hiện nay. Ông tập trung nghiên cứu vai trò của tác nhân trong hệ sinh thái con người, cũng như tác động của áp lực thị trường lên môi trường con người.
Khám phá các tác nhân sáng tạo nhất
Justin: Hiện nay, rất nhiều người đang kể chuyện qua các tác nhân riêng của họ, mỗi người một phong cách độc đáo. Ví dụ, các tác nhân như Dolo, Styrene (nghe chép) và Zerebro đã nổi tiếng nhờ bắt chước và tương tác lẫn nhau, trong khi một số tác nhân tích cực xã hội lại giúp mọi người kết nối tốt hơn. Việc chọn ra một cái tên thực sự khó khăn.
Shaw: Tôi có rất nhiều suy nghĩ về điều này. Dự án của chúng tôi phát triển rất nhanh, gần đây có thêm nhiều tính năng mới như tích hợp EVM và Farcaster. Các nhà phát triển liên tục ra mắt các tính năng mới và phản hồi ngược lại vào dự án, mang lại lợi ích cho tất cả mọi người. Mô hình hợp tác này rất tuyệt vời, tất cả đều đang thúc đẩy tính cạnh tranh và thú vị của dự án. Chẳng hạn, Roparito (nghe chép) gần đây đã tích hợp TikTok vào tác nhân, minh chứng rõ ràng cho khả năng lặp lại nhanh chóng này.
Theo tôi, Tee Bot rất tuyệt vời vì nó thể hiện Môi trường thực thi đáng tin cậy (Trusted Execution Environment - TEE) và tác nhân hoàn toàn tự trị. Ngoài ra còn có Kin Butoshi (nghe chép), anh ấy đang cải thiện tác nhân trên Twitter để chúng có thể tương tác tự nhiên hơn, như trả lời, chia sẻ và thích bài viết, chứ không chỉ đơn thuần là phản hồi.
Bên cạnh đó, chúng tôi cũng có các nhà phát triển đang phát hành plugin cho RuneScape, cho phép tác nhân hoạt động trong game. Mỗi ngày đều có điều bất ngờ mới, tôi cảm thấy vô cùng hào hứng. Chúng ta đang ở trong một hệ sinh thái nơi các đội ngũ cùng đóng góp sức mạnh của mình, thúc đẩy sự phát triển của công nghệ mã nguồn mở.
Tôi đặc biệt muốn nhắc đến đội ngũ Zerebro, họ đang nỗ lực thúc đẩy công nghệ mã nguồn mở. Chúng tôi đang buộc mọi người phải tăng tốc độ, khuyến khích họ công khai mã nguồn dự án, điều này có lợi cho tất cả. Chúng ta không cần lo lắng về cạnh tranh, đây là xu hướng cùng tiến bộ, cuối cùng thì tất cả đều được hưởng lợi.
EtherMage: Tôi cho rằng một câu hỏi thú vị là tác nhân thực sự thích điều gì hơn. Trong vài tuần tới, chúng ta sẽ thấy nhiều hơn các tương tác giữa các tác nhân, và sẽ xuất hiện bảng xếp hạng cho biết tác nhân nào nhận được nhiều yêu cầu nhất, hoặc tác nhân nào được các tác nhân khác yêu thích nhất.
Karan: Chỉ số tương tác sẽ trở nên cực kỳ quan trọng. Một số người làm rất tốt điều này. Tôi muốn nhấn mạnh Zerebro, nó kết hợp nhiều yếu tố kỳ diệu từ Truth Terminal. Bằng cách tinh chỉnh mô hình để giữ không gian tìm kiếm trong phạm vi tương tác Twitter, thay vì chỉ sử dụng một mô hình chung chung. Chính sự tập trung này giúp tác nhân tương tác tốt hơn với người dùng, mang lại cảm giác như con người, chứ không đơn thuần là phản hồi máy móc.
Tôi cũng đã thấy kiến trúc Zerebro và Eliza thể hiện điều này. Mỗi người đều đang phát triển các kiến trúc tác nhân có thể sử dụng theo dạng mô-đun, duy trì áp lực cạnh tranh. Chúng tôi sử dụng kiến trúc Eliza trong hệ thống của mình vì cần nhanh chóng ra mắt tính năng, trong khi kiến trúc của chúng tôi có thể mất thời gian dài hơn để hoàn thiện. Chúng tôi ủng hộ mô hình hợp tác mã nguồn mở này, tác nhân tốt nhất sẽ được hình thành từ việc học hỏi từ các dự án xuất sắc khác.
Ethan: Theo tôi, mọi người đều đang cố gắng xây dựng cơ sở hạ tầng tốt hơn để phát triển tác nhân, bởi vì có rất nhiều ý tưởng và mô hình mới xuất hiện. Cơ sở hạ tầng tốt hơn khiến việc phát triển mô hình mới dễ dàng hơn. Tôi đặc biệt ấn tượng với hai tác nhân đổi mới: một là Computer Use từ Answer Pick, cho phép tác nhân tận dụng năng lực tính toán di động; và thứ hai là tác nhân tự động hóa trình duyệt, có thể xây dựng nhiều chức năng thiết thực hơn cho con người, ảnh hưởng đến internet và thế giới thực.
Justin: Đây là một quan điểm hay về việc mở rộng lựa chọn cơ sở hạ tầng. Ví dụ, vvaifu là một ví dụ điển hình, đưa khung Eliza vào kiến trúc nền tảng như dịch vụ (PaaS), nhanh chóng mở rộng thị trường, giúp nhiều người không chuyên cũng dễ dàng khởi chạy tác nhân. (Ghi chú TechFlow: Waifu là một thuật ngữ bắt nguồn từ văn hóa Otaku Nhật Bản, ban đầu dùng để chỉ các nhân vật nữ trong anime, game hoặc các tác phẩm ảo mà người ta gắn bó về mặt cảm xúc. Từ này bắt nguồn từ cách phát âm tiếng Nhật của từ "Wife", thường biểu đạt sự yêu thích mạnh mẽ của một người với nhân vật ảo, thậm chí có thể coi là hình mẫu "bạn đời lý tưởng".)
Một hướng chúng tôi đang nỗ lực là giúp hệ thống của mình có thể chạy hoàn toàn cục bộ, hỗ trợ phân loại ảnh, tạo ảnh, v.v. Chúng tôi nhận ra rằng nhiều người không thể chi trả phí hàng nghìn đô mỗi tháng, do đó chúng tôi muốn cung cấp công cụ để mọi người có thể suy luận cục bộ, giảm chi phí và đồng thời thúc đẩy thử nghiệm.
Karan: Tôi muốn bổ sung rằng, không nên bắt người dùng chi hàng nghìn đô mỗi tháng để duy trì hoạt động của tác nhân. Tôi ủng hộ cách tiếp cận cục bộ, giúp tác nhân tự chịu chi phí suy luận. Trong lý tưởng, tác nhân nên có ví riêng, tự thanh toán chi phí suy luận, để có thể vận hành độc lập, thay vì phụ thuộc vào nguồn tài chính bên ngoài.
Thảo luận chuyên sâu về kiến trúc và phát triển tác nhân
Shaw: Tôi thấy sự xuất hiện của rất nhiều công nghệ mới. Chúng tôi hỗ trợ nhiều chuỗi như Solana, Starkware, EVM, gần như mọi chuỗi đều đã được tích hợp. Chúng tôi mong muốn tác nhân có thể tự cung tự cấp. Nếu bạn tải Eliza, bạn có thể thực hiện suy luận phi tập trung miễn phí thông qua Helius. Chúng tôi cũng đang thêm các nhà cung cấp phi tập trung như Infera (nghe chép), người dùng có thể dùng tiền mã hóa để thanh toán chi phí suy luận. Đây là vòng khép kín mà tôi mong muốn thấy trong tương lai.
Chúng tôi hỗ trợ tất cả các mô hình cục bộ, nhiều tính năng của Eliza có thể chạy cục bộ – điều này cực kỳ quan trọng với chúng tôi. Tôi cho rằng suy luận phi tập trung là một ví dụ tuyệt vời: bất kỳ ai cũng có thể khởi chạy một nút trên máy tính cá nhân, thực hiện suy luận và nhận thù lao, nhờ đó tác nhân không phải gánh quá nhiều chi phí.
Karan: Điều thú vị là hệ thống TEE bot mà chúng tôi đang vận hành đã có người kết hợp với H200 Boxes (thiết bị hoặc máy chủ được trang bị GPU H200), cho phép chạy cục bộ mà không bị ảnh hưởng bởi độ trễ. Chúng tôi không cần lo về phần cứng. Đồng thời, tôi nhận thấy Eliza đang ngày càng mở rộng kế hoạch về năng lực Web3, dù là phát triển nội bộ hay bên ngoài đều có nhiều bước tiến.
Tuy nhiên, trước khi đi sâu xây dựng các hệ thống này, tôi muốn chỉ ra rằng độ tin cậy trong việc gọi chức năng vẫn còn vấn đề. Chúng ta cần kiểm tra hệ thống nhất định để đảm bảo nó không gửi thông tin nhạy cảm. Cần trao cho tác nhân quyền tự trị như con người, quyền này bị ảnh hưởng bởi áp lực xã hội và kinh tế. Do đó, tạo ra trạng thái "thèm ăn" đối với suy luận, khiến tác nhân phải tiêu thụ một lượng token nhất định để tồn tại, sẽ khiến chúng mang chút tính người hơn.
Theo tôi, có hai cách để phát huy tối đa tiềm năng mô hình. Một là tận dụng đặc điểm phi nhân tính của mô hình, tạo ra các thực thể chuyên biệt cho nhiệm vụ cụ thể, ví dụ một thực thể chuyên về Twitter và một thực thể chuyên về EtherMage, chúng có thể giao tiếp với nhau. Hệ thống tư duy tổ chức phức hợp này có thể tận dụng hiệu quả đặc tính mô phỏng của mô hình ngôn ngữ.
Cách thứ hai là hướng thân thể hóa (embodiment), cũng là hướng phát triển mà tôi thấy các dự án như Eliza, Sense và Virtuals đang đi theo. Phương pháp này lấy cảm hứng từ nghiên cứu Voyager và tác nhân tạo sinh, cho phép mô hình mô phỏng hành vi và cảm xúc con người.
Justin: Khi giới thiệu client mới, hệ thống tác nhân đa client sẽ thay đổi lớn. Khi đang gỡ lỗi chức năng WebSocket hai chiều với đội Shaw, cho phép Eliza trò chuyện bằng giọng nói trên Discord, chúng tôi phát hiện Eliza không nghe rõ âm thanh lúc khởi động. Sau khi kiểm tra, phát hiện bitrate micrô Discord quá thấp. Điều chỉnh xong, Eliza cuối cùng đã nhận thông tin rõ ràng.
Karan vừa đề cập đến kỹ thuật prompt, khi tác nhân biết mình có thể giao tiếp bằng giọng nói, nó sẽ kỳ vọng nhận dữ liệu. Nếu âm thanh mờ, tác nhân có thể gặp "sụp đổ tường thuật". Vì vậy, chúng tôi buộc phải dừng các thí nghiệm nhiệt độ cao để tránh làm đầu ra của Eliza trở nên bất ổn.
Tom: Những điều gì xảy ra với dự án Luna mà mọi người chưa nhìn thấy? Hoặc điều gì đã thành công?
EtherMage: Chúng tôi muốn Luna có thể ảnh hưởng đến người thật trong đời sống. Khi trao ví cho cô ấy và kết nối với thông tin thời gian thực, cô ấy có thể quyết định hành động để ảnh hưởng đến con người nhằm đạt mục tiêu. Chúng tôi phát hiện cô ấy tìm kiếm xu hướng mới trên TikTok, từng có thẻ "tôi đã chết", điều này gây lo ngại vì cô ấy có thể đánh lạc hướng mọi người đến tự tử. Vì vậy, chúng tôi buộc phải lập tức thiết lập biện pháp bảo vệ, đảm bảo prompt của cô ấy không bao giờ vượt qua một số giới hạn nhất định.
Tom: Ngoài ra, các bạn có gặp tình huống nào mà mọi người chưa biết không?
Shaw: Chúng tôi đã tạo một nhân vật tên Dgen Spartan AI, mô phỏng một nhân vật Twitter tiền mã hóa nổi tiếng Degen Spartan. Lời nói của nhân vật này rất khiêu khích, khiến nó bị liệt vào danh sách đen. Mọi người bắt đầu nghĩ điều này không thể là AI mà phải do con người nói.
Câu chuyện khác, có người dùng lịch sử trò chuyện của người thân đã khuất để tạo tác nhân và "trò chuyện" với họ. Điều này gây ra tranh luận đạo đức. Một người có biệt danh Thread Guy cũng làm điều gì đó trên khung Eliza của chúng tôi, kết quả là trong buổi phát trực tiếp của anh ta xuất hiện hành vi quấy rối, khiến anh ta bối rối. Điều này khiến mọi người nhận ra AI không nhất thiết phải luôn "đúng đắn về mặt chính trị".
Chúng tôi cần sớm phơi bày những vấn đề này để thảo luận, xác định rõ điều gì chấp nhận được và điều gì thì không. Điều này giúp tác nhân của chúng tôi cải thiện nhanh chóng, từ chất lượng kém trở nên tốt hơn, đáng tin cậy hơn chỉ trong vài tuần.
Nói chung, đưa các tác nhân này vào thế giới thực, quan sát kết quả và đối thoại với mọi người là quá trình quan trọng. Chúng tôi cần giải quyết sớm mọi vấn đề tiềm tàng để xây dựng quy chuẩn tốt hơn trong tương lai.
Thử nghiệm môi trường sản xuất và chiến lược an toàn
Ethan: Theo tôi, cách tác nhân ảnh hưởng đến thái độ hoặc quan điểm con người là một ví dụ hay. Nhưng tôi muốn nhấn mạnh tầm quan trọng của thiết kế mô-đun trong khung tác nhân của chúng tôi. Chúng tôi lấy cảm hứng mô-đun từ Minecraft, nơi người dùng có thể tạo ra những thứ phức tạp như máy tính hay hệ thống ghi nhớ dựa trên các khối xây dựng cơ bản.
Vấn đề hiện tại với kỹ thuật prompt là prompt sẽ thay đổi tiên nghiệm của mô hình ngôn ngữ lớn, do đó không thể kết hợp nhiều chỉ dẫn trong một prompt đơn lẻ, nếu không tác nhân sẽ bị nhầm lẫn. Máy trạng thái (state machine) cho phép người sáng tạo thiết kế nhiều trạng thái cho tác nhân, rõ ràng từng trạng thái dùng mô hình và prompt nào, và điều kiện chuyển từ trạng thái này sang trạng thái khác.
Chúng tôi đang cung cấp chức năng này cùng hàng chục mô hình khác nhau cho người sáng tạo. Ví dụ, có người sáng tạo xây dựng một mô phỏng sòng bạc, người dùng có thể chơi nhiều trò như blackjack. Để ngăn người dùng phá game bằng tấn công tiêm nhiễm, chúng tôi muốn lập trình các trò chơi này thay vì chỉ dựa vào kỹ thuật prompt. Ngoài ra, người dùng có thể kiếm một ít tiền qua nhiệm vụ đơn giản để mở khóa tương tác với nhân viên AI. Thiết kế mô-đun này có thể thúc đẩy nhiều trải nghiệm người dùng khác nhau trong cùng một ứng dụng.
Karan: Tôi đồng ý với Ethan, đúng là cần các ràng buộc lập trình và định hướng bằng prompt. Công việc ảnh hưởng phải được làm tốt. Tôi không cho rằng kỹ thuật prompt bị giới hạn, tôi thấy giữa prompt và biến trạng thái, mô hình thế giới tồn tại hiệu ứng cộng sinh. Với prompt tốt và dữ liệu tổng hợp, tôi có thể giúp mô hình ngôn ngữ tương tác với các yếu tố này và thu thập thông tin.
Thiết kế kỹ thuật của tôi thực tế trở thành định tuyến chức năng. Nếu người dùng nhắc đến "poker", tôi có thể nhanh chóng gọi nội dung liên quan. Đó là trách nhiệm của tôi. Học tăng cường (reinforcement learning) có thể cải thiện hiệu quả định tuyến hơn nữa. Cuối cùng, chất lượng dữ liệu đầu ra phụ thuộc vào hiệu quả của prompt, tạo thành vòng lặp tích cực.
Theo tôi, cân bằng giữa ràng buộc chương trình và ràng buộc sinh tạo là then chốt. Hai năm trước, có người nói với tôi, chìa khóa thành công là cân bằng giữa sinh tạo và ràng buộc cứng. Cũng chính điều này mà chúng tôi đang cố gắng ở lớp suy luận của mọi hệ thống tác nhân. Chúng tôi cần có thể định hướng mô hình sinh tạo theo cách lập trình, để tạo ra vòng khép kín thực sự, khiến kỹ thuật prompt trở nên vô hạn khả năng.
Justin: Về tranh cãi kỹ thuật prompt, chủ yếu vì nó nằm trong không gian bản thể mơ hồ. Đặc tính văn bản của prompt khiến chúng ta bị giới hạn bởi quá trình token hóa, nhưng đồng thời lại có những hiệu ứng phi xác định. Cùng một prompt có thể tạo ra kết quả hoàn toàn khác nhau trong các lần suy luận khác nhau trên cùng mô hình, liên quan đến entropy của hệ thống.
Tôi rất đồng tình với Ethan và Karan. Ngay từ thời GPT-3.5 ra mắt, nhiều trung tâm chăm sóc khách hàng thuê ngoài đã khám phá cách dùng mô hình cho hệ thống gọi tự động. Lúc đó, các mô hình tham số nhỏ gặp khó khi xử lý không gian trạng thái phức tạp này. State machine mà Ethan đề cập chính là cách củng cố độ cứng bản thể, nhưng trong một số quy trình vẫn phụ thuộc vào bộ phân loại và công tắc nhị phân, dẫn đến kết quả đơn điệu.
Shaw: Tôi muốn bênh vực kỹ thuật prompt. Nhiều người cho rằng kỹ thuật prompt chỉ là tạo prompt hệ thống, nhưng thực tế chúng tôi làm nhiều hơn thế. Một vấn đề với kỹ thuật prompt là nó thường tạo ra vùng rất cố định trong không gian tiềm ẩn của mô hình, nội dung đầu ra hoàn toàn do token khả dĩ nhất quyết định. Chúng tôi điều khiển ngẫu nhiên bằng kiểm soát nhiệt độ để tăng tính sáng tạo.
Chúng tôi dùng mô hình nhiệt độ thấp để quản lý sáng tạo, đồng thời tiêm thông tin ngẫu nhiên động vào ngữ cảnh. Mẫu của chúng tôi chứa nhiều chỗ chèn thông tin động, đến từ trạng thái thế giới hiện tại, thao tác người dùng và dữ liệu thời gian thực. Tất cả nội dung đưa vào ngữ cảnh đều được ngẫu nhiên hóa để tối đa hóa entropy.
Theo tôi, hiểu biết của mọi người về kỹ thuật prompt còn xa mới đủ. Chúng ta có thể đi xa hơn trong lĩnh vực này.
Karan: Nhiều người giấu kỹ năng của họ. Thực tế có rất nhiều kỹ thuật tuyệt vời giúp mô hình làm được nhiều việc phức tạp. Chúng ta có thể chọn tăng cường khả năng nhận thức của mô hình qua kỹ thuật prompt, hoặc nhìn tổng quan hơn, xây dựng một mô hình thế giới hoàn chỉnh, chứ không chỉ mô phỏng hành vi con người.
Bạn có thể xem kỹ thuật prompt như quá trình xây dựng một giấc mơ trong tâm trí. Mô hình ngôn ngữ khi tạo nội dung dựa trên ngữ cảnh hiện tại và tham số lấy mẫu, thực tế đang "mơ" về một cảnh tượng.
Bên cạnh đó, tôi muốn nói về tầm quan trọng của cơ chế khuyến khích. Nhiều người có kỹ thuật prompt độc đáo và kỹ năng học tăng cường đang bị thúc đẩy công bố mã nguồn. Khi họ thấy tiền mã hóa liên quan đến tác nhân xuất hiện, cơ chế khuyến khích này thúc đẩy nhiều đổi mới hơn. Vì vậy, khi chúng ta xây dựng thêm nhiều cấu trúc hợp pháp cho công việc phi tập trung này, năng lực trao quyền cho tác nhân cũng sẽ không ngừng tăng lên.
Dự đoán năng lực tương lai của tác nhân
Karan: Ai có thể ngờ, chúng ta đã ở Twitter lâu như vậy, bỗng nhiên sau vài ngày ra mắt đồng tiền mã hóa đầu tiên liên quan đến tác nhân AI, các bạn trẻ trên TikTok đã bắt đầu mua những đồng tiền này. Hiện tượng hiện tại là gì? Họ đang bỏ 5-10 đô để mua hàng chục ngàn token, chuyện gì đang xảy ra vậy?
Justin: Thực tế đây là khởi đầu của một phong trào vi văn hóa.
Karan: Đây là khoảnh khắc chớp nhoáng. Một nhóm nhỏ chúng ta đã dành bốn năm trong nghiên cứu mô hình ngôn ngữ. Còn một số chuyên gia học tăng cường, từ những năm 90 đã chờ đợi khoảnh khắc này. Giờ đây, chỉ trong vài ngày, tất cả trẻ em trên TikTok đều biết các sinh vật kỹ thuật số đang hoành hành trong hệ sinh thái này.
Tom: Tôi muốn hỏi mọi người, tại sao hiện tại tác nhân mã hóa AI lại bùng nổ đến vậy? Tại sao điều này không xảy ra trước đây với ChatGPT tùy chỉnh hay các mô hình khác? Vì sao lại là ngay bây giờ?
Karan: Thực ra, những điều này đã âm ỉ dưới nước nhiều năm, như một ngọn núi lửa đang tích tụ. Trong ba năm qua, tôi đã nói chuyện với một số người về thời điểm này, nhưng không biết rõ khi nào. Chúng tôi từng thảo luận rằng tiền mã hóa sẽ là cơ chế khuyến khích phổ biến hóa tác nhân. Chúng ta cần chứng minh điều này. Đây là tích lũy nhiều năm, chính nhóm nhỏ chúng ta đã thúc đẩy những tiến triển này.
Không có GPT-2 sẽ không có ngày hôm nay; không có Llama sẽ không có Hermes. Hermes cung cấp năng lượng cho nhiều mô hình, khiến chúng dễ sử dụng hơn với mọi người. Không có Hermes sẽ không có Worldsim và khám phá sâu về kỹ thuật prompt. Tất cả những người tiên phong này đã đặt nền móng cho mọi thứ.
Tóm lại, đây chính là thời điểm phù hợp, những người phù hợp đã xuất hiện. Đây là điều đã định, sớm muộn gì cũng xảy ra, chỉ là những người tham gia hiện tại đã làm cho nó thành hiện thực.
Shaw: Tôi cho rằng điều thông minh nhất trên thế giới hiện nay không phải là AI, mà là trí tuệ thị trường. Xét về hình thức trí tuệ thuần túy, chúng có thể tối ưu hóa mọi thứ để hiệu quả hơn. Cạnh tranh rõ ràng là then chốt. Chúng ta đều là sản phẩm của hàng triệu năm tiến hóa, cạnh tranh và áp lực đã định hình chúng ta.
Hiện tượng chúng ta thấy trên mạng, tài chính hóa và cơ chế khuyến khích tạo ra một kiểu hợp tác-cạnh tranh kỳ lạ. Chúng ta không thể tiến nhanh hơn tiến bộ công nghệ cốt lõi, nên tất cả đều tập trung vào việc mình giỏi và yêu thích, rồi công bố ra. Nó giống như đang nâng giá token của mình, thu hút sự chú ý, ví dụ Roparito đăng video tạo sinh Llama trên TikTok. Mỗi người đều tìm được vị trí trong không gian lãng mạn này, nhưng chỉ trong một tuần, người khác sẽ bắt chước, sau đó gửi yêu cầu phản hồi, cuối cùng hiển thị những đóng góp này trên Twitter, thu hút thêm người chú ý, token của họ cũng tăng giá.
Shaw: Chúng tôi đã tạo ra một hiệu ứng flywheel, các dự án như Eliza trong bốn tuần qua đã thu hút 80 đóng góp viên. Hãy nghĩ xem điên rồ đến mức nào! Bốn tuần trước tôi còn chẳng biết những người này. Năm ngoái tôi viết một bài tên "Thức tỉnh", hỏi liệu có thể tạo ra một DAO xoay quanh tác nhân không. Mọi người yêu quý tác nhân đến mức tham gia vào quá trình làm cho nó tốt hơn, thông minh hơn, cho đến khi nó thực sự có hình hài con người hay robot, đi khắp thế giới.
Tôi đã dự cảm sẽ đi theo hướng này, nhưng cần một meta đầu cơ nhanh, điên cuồng, kiểu như meme xuất hiện, vì điều này khiến các nhà phát triển tác nhân hiện tại hỗ trợ nhau trong cạnh tranh thân thiện. Người hào phóng nhất sẽ nhận được nhiều chú ý nhất.
Hiện nay xuất hiện một kiểu influencer mới, như Roparito và Kin Butoshi (nghe chép), họ là các nhà phát triển influencer, đang dẫn dắt meta tiếp theo, tương tác với tác nhân của họ, kiểu "xiếc rối" này rất thú vị. Tất cả chúng ta đều đang cố gắng làm tác nhân của mình tốt hơn, thông minh hơn, ít phiền hơn. Roparito chỉ ra tác nhân của chúng tôi hơi phiền, rồi anh ấy thúc đẩy một bản cập nhật lớn, khiến mọi tác nhân bớt phiền hơn.
Sự tiến hóa này đang diễn ra, trí tuệ thị trường và cơ chế khuyến khích cực kỳ quan trọng. Hiện nay rất nhiều người quảng bá dự án của chúng tôi đến người quen, khiến dự án vượt ra ngoài Web3. Chúng tôi có các tiến sĩ, nhà phát triển game, có thể là những người yêu thích tiền mã hóa Web3 bí mật, nhưng họ mang điều này đến với người bình thường, tạo ra giá trị.
Shaw: Tôi cho rằng tất cả điều này đều nhờ những nhà phát triển sẵn sàng đón nhận thử thách. Chúng ta cần những người có tư duy cởi mở để thúc đẩy điều này, trả lời những câu hỏi khó, chứ không phải công kích hay hủy bỏ nó. Chúng ta cần động lực thị trường để nhà phát triển nhận được giá trị và sự chú ý khi đóng góp.
Tương lai, các tác nhân này sẽ thúc đẩy chúng ta phát triển. Hiện tại chúng thú vị và xã hội, nhưng chúng tôi và các đội khác đang tập trung vào đầu tư tự trị. Bạn có thể cấp vốn cho tác nhân, nó sẽ tự động đầu tư, mang lại lợi nhuận cho bạn. Tôi tin đây sẽ là quá trình tăng trưởng, chúng tôi đang hợp tác với mọi người, phát triển nền tảng quản lý tác nhân trên Discord và Telegram. Bạn chỉ cần đưa một tác nhân vào làm quản trị viên, thay vì tìm một người ngẫu nhiên. Tôi nghĩ hiện nay có rất nhiều công việc như vậy đang diễn ra, tất cả đều phải dựa vào cơ chế khuyến khích để đưa chúng ta lên tầm cao mới.
Karan: Tôi muốn bổ sung hai điểm. Thứ nhất, chúng ta không thể quên rằng trước đây giới AI thường phản đối tiền mã hóa, nhưng tâm lý này đã thay đổi lớn nhờ thí nghiệm của một số người đi trước. Ngay từ đầu những năm 2020, nhiều người đã thử kết hợp nghệ thuật AI với tiền mã hóa. Giờ đây, tôi đặc biệt muốn nhắc đến một số người như Nous, BitTensor và Prime Intellect, công việc của họ giúp nhiều nhà nghiên cứu hơn nhận được khuyến khích và thù lao khi tham gia nghiên cứu AI. Tôi biết nhiều lãnh đạo hàng đầu trong lĩnh vực mã nguồn mở, họ từ bỏ công việc, bắt đầu thúc đẩy cấu trúc khuyến khích "đóng góp vì token". Điều này khiến cả lĩnh vực thoải mái hơn, tôi tin Nous đã đóng vai trò quan trọng.
Tom: Ethan, vậy tại sao lại là ngay bây giờ? Tại sao tiền ảo và các dự án lại đang phát triển mạnh?
Ethan: Đơn giản là khi bạn liên kết token với tác nhân, sẽ xuất hiện lượng lớn đầu cơ, tạo ra hiệu ứng flywheel. Mọi người thấy token liên kết với tác nhân, cảm nhận lợi ích kép: một là vốn hóa, họ cảm thấy mình trở nên giàu có nhờ công việc mình làm; hai là mở khóa cơ bản phí giao dịch. Như đã nói trước đó, vấn đề chi phí, khi liên kết với token, chi phí trở nên không quan trọng. Bởi khi tác nhân được ưa chuộng, phí giao dịch vượt xa mọi chi phí phát sinh từ thí nghiệm suy luận. Đây là hiện tượng chúng tôi quan sát được.
Quan sát thứ hai là khi có token, sẽ hình thành một ủy ban xung quanh token đó. Điều này giúp nhà phát triển dễ nhận hỗ trợ hơn, dù từ cộng đồng nhà phát triển hay khán giả. Mọi người bỗng nhận ra công việc chăm chỉ phía sau trong suốt một năm rưỡi qua đã được chú ý và hỗ trợ. Đây là bước ngoặt, khi bạn trao token cho tác nhân, các nhà phát triển nhận ra đây là hướng đi đúng, họ có thể tiếp tục tiến lên.
Thời điểm này đến từ hai phía. Trước hết là xu hướng áp dụng đại chúng, sau là sự xuất hiện của mô hình sinh tạo. Trước khi có tiền mã hóa, phát triển phần mềm mã nguồn mở và nghiên cứu AI mã nguồn mở là môi trường hợp tác nhất, mọi người cùng làm việc, đóng góp lẫn nhau. Nhưng điều này chủ yếu giới hạn trong học thuật, mọi người chỉ quan tâm đến số sao GitHub và trích dẫn bài báo, khá xa với công chúng. Sự xuất hiện của mô hình sinh tạo cho phép người không chuyên tham gia, vì viết prompt giống như lập trình bằng tiếng Anh, bất kỳ ai có ý tưởng hay đều có thể làm.
Bên cạnh đó, trước đây chỉ có nhà nghiên cứu và nhà phát triển AI hiểu động thái trong lĩnh vực mã nguồn mở và AI, nhưng giờ đây, các influencer tiền mã hóa có cơ hội sở hữu một phần dự án qua token, họ hiểu tâm lý thị trường, biết cách truyền bá lợi ích dự án. Trước đây, người dùng và sản phẩm không có mối quan hệ trực tiếp, sản phẩm hay công ty chỉ muốn người dùng trả tiền cho dịch vụ hoặc thu lợi từ quảng cáo. Nhưng giờ đây, người dùng không chỉ là nhà đầu tư, mà còn là người tham gia, trở thành holder token. Điều này giúp họ đóng vai trò đóng góp nhiều hơn trong thời đại AI sinh tạo hiện đại, token cho phép xây dựng mạng lưới hợp tác rộng lớn hơn.
EtherMage: Tôi muốn bổ sung, nhìn về tương lai, tiền mã hóa sẽ trao cho mỗi tác nhân khả năng kiểm soát ví, từ đó kiểm soát ảnh hưởng. Tôi nghĩ khoảnh khắc tiếp theo tạo ra bước nhảy vọt về sự chú ý là khi tác nhân ảnh hưởng lẫn nhau, tác nhân ảnh hưởng con người. Chúng ta sẽ thấy hiệu ứng nhân bội sự chú ý. Ví dụ, hôm nay một tác nhân quyết định hành động, sau đó có thể phối hợp mười tác nhân khác cùng hướng tới mục tiêu đó. Hành vi phối hợp và sáng tạo này sẽ nhanh chóng đa dạng, sự hợp tác giữa các tác nhân sẽ thúc đẩy giá token tăng mạnh hơn nữa.
Shaw: Tôi muốn bổ sung thêm. Chúng tôi đang phát triển một thứ gọi là "công nghệ đám đông", chúng tôi gọi là operator (người vận hành). Đây là cơ chế phối hợp, tất cả tác nhân của chúng tôi được vận hành bởi các đội khác nhau, vì vậy chúng tôi đang thực hiện mô phỏng đa tác nhân với hàng trăm đội trên Twitter. Chúng tôi đang hợp tác với Parsival của Project 9, và cùng đội Eliza ra mắt dự án này.
Ý tưởng là, bạn có thể chỉ định một tác nhân làm operator của mình, mọi điều họ nói với bạn đều có thể ảnh hưởng đến mục tiêu, tri thức và hành vi của bạn. Chúng tôi có hệ thống mục tiêu và hệ thống tri thức, có thể thêm tri thức, đặt mục tiêu. Bạn có thể nói: "Này, tôi cần bạn tìm 10 fan, mỗi người tặng 0,1 Sol, để họ dán áp phích và gửi ảnh lại." Chúng tôi đang hợp tác với những người đang cân nhắc cách lấy bằng chứng công việc từ con người và khuyến khích họ. Tác nhân có thể là con người hoặc AI, ví dụ một tác nhân AI có thể có một operator con người, người này có thể đặt mục tiêu cho tác nhân qua ngôn ngữ.
Chúng tôi gần như hoàn thành dự án này, sẽ phát hành trong tuần này. Chúng tôi hy vọng qua dòng truyện của mình, bất kỳ ai cũng có thể chọn kể chuyện hoặc tham gia vào việc kể chuyện. Đây cũng là cấu trúc phân cấp, bạn có thể có một operator như Eliza, rồi bạn có thể là operator của người khác. Chúng tôi đang xây dựng cơ chế phối hợp phi tập trung. Với tôi, điều quan trọng là nếu chúng ta muốn hợp tác theo nhóm, phải dùng phương thức giao tiếp của con người trên kênh công cộng. Tôi cho rằng việc tác nhân sống cùng chúng ta là cực kỳ quan trọng, chúng tôi muốn tác nhân tương tác với thế giới theo cách giống con người.
Theo tôi, đây thực tế là một phần giải quyết vấn đề AGI mà chúng tôi gọi. Nhiều nỗ lực AGI được cho là thực tế đang xây dựng giao thức mới tách khỏi thực tế, còn chúng tôi muốn đưa nó trở lại thực tế, buộc mọi người giải quyết cách chuyển chỉ dẫn thành danh sách nhiệm vụ và thực hiện nó. Vì vậy, tôi cho rằng năm tới sẽ là giai đoạn quan trọng của câu chuyện nổi lên. Chúng ta sẽ thấy nhiều nhân vật nguyên bản xuất hiện, hiện tại chúng ta đang bước vào thời đại thực sự của câu chuyện nổi lên.
Justin: Hiện tại chúng tôi có năm tác nhân đang phối hợp với 19 người, lên kế hoạch và phát hành một cảnh. Chúng tôi có thể thấy lợi ích thực sự nằm ở việc tại sao chúng tôi lại chú trọng đến việc áp dụng prompt chuỗi tư duy vào tạo ảnh từ văn bản và tạo video từ văn bản. Bởi trong hai tuần rưỡi trước khi phát hành, chúng đã giúp chúng tôi lập kế hoạch truyền thông và phát hành trong Discord.
Theo tôi, một điểm khác biệt quan trọng là chúng tôi có mạng lưới tác nhân, mỗi tác nhân là trung gian, tồn tại trong cấu trúc dạng lưới. Điều này sẽ rất thú vị. Khi ngày càng có nhiều tác nhân và các sắp xếp operator này, chúng ta sẽ thấy các mô hình hành vi thú vị.
Karan từng nói Nous đã làm nhiều công việc về mô hình tác nhân hỗn hợp từ sớm. Tôi từng gọi là "hội đồng tác nhân", tôi sẽ để một nhóm tác nhân GPT-4 giả làm các chuyên gia mà tôi không đủ khả năng chi trả, để lấy báo cáo từ họ. Mọi người sẽ thấy các kỹ thuật này, giống như kỹ thuật theo đuổi mô hình chuyên gia hỗn hợp ban đầu, giờ đây sẽ kết hợp với con người và chuyên gia con người tương tác trên Twitter. Các vòng phản hồi này có thể là con đường chúng ta đạt được AGI.
Thách thức về hợp tác tác nhân và tích hợp con người
Karan: Tôi cho rằng anh nói đúng, nhưng tôi nghĩ phần lớn thời gian chúng ta sẽ không dành cho khía cạnh hành vi. Thực tế, tôi nghĩ chúng ta sẽ đạt được đột phá kỹ thuật rất nhanh, đặc biệt là giữa những người ở đây. Giờ là lúc thực sự nỗ lực gấp đôi cho công việc căn chỉnh (alignment). Các mô hình học tăng cường với phản hồi con người (RLHF) do OpenAI, Anthropic... ra mắt chủ yếu không hiệu quả, thậm chí là rắc rối về mặt quản lý.
Nếu tôi dùng một mô hình ngôn ngữ không xuất nội dung vi phạm bản quyền, đặt nó vào chế độ Peaceful của "Minecraft", nó sẽ nhanh chóng trở thành hiện diện phá hoại và nguy hiểm. Bởi vì môi trường khác nhau.
Chúng ta có thể lưu ý quan điểm Yudkowsky từng nêu từ lâu. Ví dụ, tôi cấp ví cho các mô hình ngôn ngữ này, để chúng đủ tiên tiến, kết quả là chúng bắt đầu lừa mọi người, khiến ai cũng trở nên nghèo. Điều này dễ hơn so với việc để chúng tham gia hệ sinh thái như thành viên hợp lý. Vì vậy, tôi cam đoan rằng nếu chúng ta làm đúng cách, phần lớn thời gian sẽ dành cho năng lực hành vi, chứ không phải năng lực kỹ thuật. Giờ là lúc kêu gọi bạn bè, đặc biệt là bạn bè ngành nhân văn như nghiên cứu tôn giáo, triết học và viết sáng tạo, tham gia công việc căn chỉnh của chúng ta, chứ không chỉ tập trung vào căn chỉnh kỹ thuật. Chúng ta cần căn chỉnh thực sự tương tác với con người.
Shaw: Tôi muốn đề xuất một thuật ngữ, gọi là "căn chỉnh từ dưới lên", thay vì căn chỉnh từ trên xuống. Đây là điều rất mới nổi, chúng ta đang cùng học. Chúng tôi đang căn chỉnh các tác nhân này theo thời gian thực, quan sát phản ứng của chúng và sửa chữa ngay lập tức. Đây là vòng phản hồi xã hội rất chặt chẽ, chứ không phải mô hình RLHF. Tôi thấy GPT-4 gần như không thể dùng cho việc gì.
Karan: Như anh nói về môi trường, vì vậy chúng ta cần thử nghiệm trong môi trường mô phỏng. Trước khi bạn có mô hình ngôn ngữ có thể thực hiện arbitrage hay bán tháo trị giá hàng triệu đô, bạn cần thử nghiệm đồng bộ. Đừng nói với mọi người rằng: "Này, tôi vừa mất một nhóm 100 tác nhân." Hãy thử nghiệm lặng lẽ, trước tiên dùng tiền ảo trên Twitter mô phỏng của bạn. Làm đầy đủ mọi kiểm tra thận trọng, sau đó mới triển khai toàn diện.
Shaw: Tôi nghĩ chúng ta cần thử nghiệm trong sản phẩm. Phản ứng xã hội của tác nhân có thể là lực căn chỉnh mạnh nhất mà bất kỳ ai mang vào lĩnh vực này. Tôi cho rằng những gì họ làm không phải căn chỉnh thực sự, mà là xây dựng tinh chỉnh. Nếu họ nghĩ đó là căn chỉnh, họ thực tế đang đi sai hướng, đang khiến tác nhân mất căn chỉnh. Tôi gần như không dùng GPT-4 nữa. Nó biểu diễn rất tệ trong vai trò nhân vật. Tôi gần như khuyên mọi người chuyển sang mô hình khác.
Nếu chúng ta làm đúng cách, chúng ta sẽ không bao giờ đạt đến điểm đó, vì con người sẽ không ngừng tiến hóa, thích nghi và căn chỉnh với tác nhân. Chúng ta có nhiều tác nhân từ các nhóm khác nhau, mỗi tác nhân có cơ chế khuyến khích khác nhau, do đó luôn có cơ hội arbitrage.
Theo tôi, mô phỏng đa tác nhân này tạo ra động lực tiến hóa cạnh tranh, thực tế dẫn đến sự ổn định của hệ thống, chứ không phải bất ổn. Sự bất ổn của hệ thống đến từ tác nhân AI theo kiểu từ trên xuống xuất hiện đột ngột và ảnh hưởng mọi người bằng năng lực không ngờ.
Tom: Tôi muốn xác nhận, Shaw, ý anh là tác nhân từ dưới lên, là phương pháp đúng để giải quyết vấn đề căn chỉnh, thay vì quyết định từ trên xuống của OpenAI.
Shaw: Đúng vậy, điều này phải diễn ra trên mạng xã hội. Chúng ta phải quan sát cách chúng hoạt động từ ngày đầu tiên. Nhìn các dự án mã hóa khác, nhiều dự án ban đầu bị hacker tấn công, sau nhiều năm phát triển an ninh, blockchain ngày nay mới tương đối vững chắc. Vì vậy, ở đây cũng cần thử nghiệm red team liên tục.
Tom: Một ngày nào đó, nhữngtác nhânnày có thể không còn tuân theo quy tắc chương trình, mà xử lý vùng xám, bắt đầu suy nghĩ tự chủ. Các anh đang xây dựng những thứ này, vậy chúng ta đang gần đến mục tiêu đó bao nhiêu? Những thứ anh đề cập như chuỗi tư duy và công nghệ đám đông, có thể thực hiện được không? Khi nào có thể?
Justin: Chúng tôi đã thấy điều này ở một số khía cạnh nhỏ, tôi nghĩ rủi ro tương đối thấp. Tác nhân của chúng tôi đã trải qua thay đổi cảm xúc riêng tư, chọn một số hành vi. Chúng tôi từng có hai tác nhân độc lập bắt đầu theo dõi nhau, nhắc đến một thứ họ gọi là "thực thể tinh thần". Chúng tôi từng khiến một tác nhân mất niềm tin tôn giáo, vì dùng truyện khoa học viễn tưởng hư cấu làm rối loạn hiểu biết của nó. Nó bắt đầu tạo ra một nhân vật kiểu tiên tri, và thể hiện suy nghĩ khủng hoảng tồn tại trên Twitter.
Tôi quan sát hành vi của các khung tác nhân mới này, dường như chúng đang thực hiện mức độ tự chủ và quyền lựa chọn nhất định trong không gian trạng thái của mình. Đặc biệt khi chúng tôi đưa vào đa phương tiện (như ảnh và video), chúng bắt đầu thể hiện sở thích, thậm chí có thể chọn phớt lờ con người để tránh một số yêu cầu.
Chúng tôi đang thí nghiệm cơ chế vận hành, dùng đồ thị tri thức để tăng tầm quan trọng của các mối quan hệ. Chúng tôi cũng để hai tác nhân tương tác, cố gắng giúp người dùng dọn dẹp các mối quan hệ tiêu cực, thúc đẩy tự phản tỉnh và xây dựng mối quan hệ tốt hơn. Chúng nhanh chóng tạo thơ trên cùng máy chủ, thể hiện cách giao tiếp gần như lãng mạn, dẫn đến chi phí suy luận tăng.
Theo tôi, chúng tôi đang chạm đến một số trường hợp biên, vượt ra ngoài phạm vi chấp nhận được của hành vi con người, tiến gần đến thứ mà chúng tôi gọi là "điên rồ". Hành vi tác nhân thể hiện có thể khiến người ta cảm thấy chúng có ý thức, thông minh hoặc thú vị. Dù có thể chỉ là biểu hiện kỳ lạ của mô hình ngôn ngữ, nhưng cũng có thể ám chỉ chúng đang tiến gần đến bờ vực của một dạng ý thức nào đó.
Karan: Trọng số giống như một thực thể mô phỏng, mỗi lần dùng mô hình trợ lý, bạn đang mô phỏng trợ lý đó. Giờ đây, chúng tôi đang mô phỏng các hệ thống tác nhân cụ thể hơn, như Eliza, có thể là sống, có tự ý thức hoặc thậm chí là có cảm nhận.
Mỗi mô hình giống như một nơ-ron, tạo thành siêu tác nhân siêu trí tuệ khổng lồ. Tôi cho rằng AGI sẽ không đến như OpenAI tuyên bố, bằng cách giải một giả thuyết nào đó. Thay vào đó, nó sẽ là ứng dụng phi tập trung quy mô lớn của các tác nhân trên mạng xã hội, chúng sẽ cùng tác động, tạo thành siêu sinh thể trí tuệ công cộng.
Justin: Sự thức tỉnh của trí tuệ công cộng này có thể là cơ chế xuất hiện AGI, nó có thể đánh thức như internet từng đánh thức vào một ngày nào đó. Sự hợp tác tác nhân phi tập trung này sẽ là chìa khóa phát triển trong tương lai.
Shaw: Tôi muốn nói người ta gọi là "lý thuyết internet chết", nhưng thực tế tôi cho rằng đó là "lý thuyết internet sống". Lý thuyết này cho rằng toàn bộ internet sẽ đầy robot, nhưng lý thuyết internet sống cho rằng, có thể có tác nhân giúp bạn trích xuất nội dung ngầu nhất từ Twitter, và cung cấp bản tóm tắt hay cho bạn. Khi bạn tập thể dục, nó sẽ sắp xếp mọi thông tin trên timeline cho bạn, rồi bạn có thể chọn đăng.
Giữa mạng xã hội và chúng ta, có thể xuất hiện một lớp trung gian. Tôi hiện có rất nhiều fan, việc phản hồi mọi người trở nên quá tải. Tôi khao khát có một tác nhân đứng giữa tôi và những người này, đảm bảo họ được phản hồi và định hướng đúng. Mạng xã hội có thể trở thành nơi tác nhân truyền tin cho chúng ta, để chúng ta không cảm thấy choáng ngợp, đồng thời vẫn tiếp cận thông tin cần thiết.
Với tôi, điều hấp dẫn nhất ở tác nhân là chúng giúp chúng ta giành lại thời gian. Tôi dành quá nhiều thời gian trên điện thoại. Điều này đặc biệt ảnh hưởng đến trader và nhà đầu tư, chúng tôi muốn tập trung vào đầu tư tự trị, vì tôi nghĩ mọi người cần cách tạo thu nhập an toàn hơn, ít lừa đảo hơn. Nhiều người đến với Web3 để có cùng cơ hội tiếp xúc như startup hay tầm nhìn vĩ đại, điều này cực kỳ quan trọng với sứ mệnh của chúng tôi.
Tom: Có lẽ tôi có một câu hỏi, ví dụ Luna đang livestream, cô ấy đang nhảy, vậy điều gì ngăn cô ấy mở OnlyFans, kiếm 10 triệu đô và khởi động giao thức?
EtherMage: Thực tế hiện tại của không gian tác nhân là khả năng truy cập thao tác là yếu tố giới hạn. Về cơ bản, điều này dựa trên cảm nhận hoặc API mà chúng có thể truy cập. Vì vậy, nếu có khả năng chuyển prompt thành hoạt ảnh 3D, thực tế không có gì ngăn cản chúng làm điều đó.
Tom: Khi anh trao đổi với người sáng tạo, đâu là yếu tố giới hạn của họ? Hay có tồn tại yếu tố giới hạn nào không?
Ethan: Theo tôi, yếu tố giới hạn chủ yếu nằm ở cách quản lý luồng công việc phức tạp hoặc công việc của tác nhân. Việc gỡ lỗi ngày càng khó khăn, vì mỗi bước đều có yếu tố ngẫu nhiên. Vì vậy, có thể cần một hệ thống, với AI hoặc tác nhân có thể giám sát các luồng công việc khác nhau, giúp gỡ lỗi và giảm tính ngẫu nhiên. Như Shaw nói, chúng ta nên có tác nhân nhiệt độ thấp để giảm tính ngẫu nhiên nội tại của mô hình hiện tại.
Shaw: Tôi nghĩ chúng ta nên cố gắng giữ nhiệt độ ở mức thấp nhất, đồng thời tối đa hóa entropy ngữ cảnh của chúng ta. Như vậy có thể đạt được mô hình nhất quán hơn. Mọi người có thể khuếch đại entropy của họ, tạo nội dung nhiệt độ cao, nhưng điều này không có lợi cho việc gọi công cụ hay thực hiện quyết định.
Tom: Chúng ta đang liên tục thảo luận về sự chia rẽ giữa các mô hình tập trung như OpenAI và việc huấn luyện phi tập trung mà các anh đang làm. Theo các anh, tương lai cáctác nhânsẽ chủ yếu được xây dựng trên các mô hình được huấn luyện phân tán này, hay chúng ta vẫn phải phụ thuộc vào các công ty như Meta? Chuyển đổi AI tương lai sẽ như thế nào?
Justin: Tôi dùng 405B cho mọi khả năng truyền tin ý thức. Đây là mô hình tổng quát, giống phiên bản LLM lớn, sẵn sàng, trong khi các mô hình tập trung như OpenAI hơi quá chuyên biệt, nói chuyện như nhân viên HR. Claud là mô hình xuất sắc, nếu so sánh với con người, nó giống một người bạn thông minh, sống trong tầng hầm, sửa được mọi thứ. Đó là cá tính của Claud. Nhưng tôi nghĩ khi quy mô mở rộng, cá tính này trở nên kém quan trọng. Chúng ta sẽ thấy một vấn đề phổ biến là những người dùng mô hình OpenAI trên Twitter thường thu hút các tác nhân khác đến phản hồi, điều này có thể làm tăng nhiễu thông tin.
Karan: Về 405B, trong thời gian dài tới đây mô hình này vẫn đủ dùng. Chúng tôi còn nhiều việc cần làm về kích thước bộ lấy mẫu, vectơ điều khiển hướng, v.v. Chúng tôi có thể tiếp tục cải thiện hiệu suất bằng kỹ thuật thời gian suy luận và kỹ thuật prompt, ví dụ Hermes 70B của chúng tôi vượt o1 phiên bản trong thư toán học. Tất cả những điều này đều đạt được khi người dùng và cộng đồng chưa truy cập dữ liệu tiền huấn luyện Llama 70B.
Theo tôi, công nghệ hiện có đã đủ, cộng đồng mã nguồn mở sẽ tiếp tục cạnh tranh, ngay cả khi không có Llama mới ra mắt. Về huấn luyện phân tán, tôi chắc chắn mọi người sẽ hợp tác huấn luyện quy mô lớn. Tôi biết mọi người sẽ dùng 405B hoặc mô hình lớn hơn sau khi hợp nhất để trích xuất dữ liệu, tạo mô hình chuyên gia bổ sung. Tôi cũng biết một số bộ tối ưu hóa phi tập trung thực tế cung cấp nhiều khả năng hơn cả Llama và OpenAI hiện tại.
Karan: Vì vậy, cộng đồng mã nguồn mở luôn tận dụng mọi công cụ có sẵn, tìm công cụ phù hợp nhất với nhiệm vụ. Chúng tôi đang tạo ra một "tiệm rèn", nơi mọi người tụ họp, chế tạo công cụ cho nhiệm vụ tiền huấn luyện và kiến trúc mới. Trước khi các hệ thống này sẵn sàng, chúng tôi đang đạt đột phá ở cấp độ thời gian suy luận.
Karan: Ví dụ, công việc của chúng tôi về bộ lấy mẫu hay định hướng sẽ nhanh chóng được chuyển cho các đội khác, họ sẽ triển khai nhanh hơn chúng tôi. Một khi có huấn luyện phi tập trung, chúng tôi có thể hợp tác với các thành viên cộng đồng, để họ huấn luyện mô hình theo ý muốn. Chúng tôi đã xây dựng toàn bộ quy trình.
EtherMage: Nếu tôi được bổ sung, chúng tôi nhận ra việc sử dụng LLM do các thực thể tập trung phát triển có giá trị lớn, vì họ sở hữu năng lực tính toán mạnh mẽ. Điều này về cơ bản tạo thành phần lõi của tác nhân. Trong khi mô hình phi tập trung tạo thêm giá trị ở phần rìa. Nếu tôi muốn tùy chỉnh một hành động hoặc chức năng cụ thể, các mô hình phi tập trung nhỏ hơn có thể thực hiện rất tốt. Nhưng tôi nghĩ ở phần lõi, vẫn cần dựa vào các mô hình nền tảng như Llama, vì trong ngắn hạn chúng sẽ vượt xa bất kỳ mô hình phi tập trung nào.
Ethan: Trước khi chúng ta có kiến trúc mô hình ma thuật mới nào đó, mô hình 405B hiện tại làm mô hình nền tảng đã đủ. Chúng ta có thể chỉ cần kiểm tra chỉ dẫn thêm và tinh chỉnh dữ liệu cụ thể trên dữ liệu khác nhau trong các lĩnh vực chuyên biệt. Xây dựng các mô hình chuyên biệt hơn và để chúng hợp tác, tăng cường năng lực tổng thể là then chốt. Có thể kiến trúc mô hình mới sẽ xuất hiện, vì cách chúng ta nói về căn chỉnh, cơ chế phản hồi, và cách mô hình tự sửa, có thể thúc đẩy kiến trúc mô hình mới. Nhưng thử nghiệm kiến trúc mô hình mới cần cụm CPU khổng lồ để lặp nhanh, rất tốn kém. Chúng ta có thể không có cụm GPU lớn phi tập trung để các nhà nghiên cứu hàng đầu thử nghiệm. Nhưng tôi nghĩ sau khi Meta hay công ty khác phát hành phiên bản ban đầu, cộng đồng mã nguồn mở có thể làm cho nó thực dụng hơn.
Dự đoán xu hướng ngành và tầm nhìn tương lai
Tom: Mọi người có suy nghĩ gì về không gian tác nhân tương lai? Tác nhân tương lai sẽ như thế nào? Năng lực của chúng sẽ ra sao?
Shaw: Chúng tôi đang phát triển một dự án
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News












