
Khi điểm nghẽn của AI không còn nằm ở mô hình: Thực tiễn và suy ngẫm của Perseus Yang trong việc xây dựng hệ sinh thái mã nguồn mở
Tuyển chọn TechFlowTuyển chọn TechFlow

Khi điểm nghẽn của AI không còn nằm ở mô hình: Thực tiễn và suy ngẫm của Perseus Yang trong việc xây dựng hệ sinh thái mã nguồn mở
Các mô hình sẽ tiếp tục trở nên mạnh mẽ hơn, nhưng việc xác định cách agent tương tác với thế giới thực, cũng như quyết định kiến thức chuyên ngành nên được mã hóa và phân phối dưới dạng nào — những câu hỏi này không thể tự nhiên nảy sinh từ mô hình.
Tác giả: Lưu Quân
Năm 2026, một nhận định chung đang hình thành trong ngành AI: năng lực mô hình không còn là điểm nghẽn. Khoảng cách nằm bên ngoài mô hình—ở việc mã hóa kiến thức chuyên ngành, ở giao diện giữa agent và thế giới thực, và ở mức độ trưởng thành của chuỗi công cụ. Khoảng cách này đang được cộng đồng mã nguồn mở lấp đầy—với tốc độ vượt xa kỳ vọng của tất cả mọi người. OpenClaw giành được 60.000 sao trên GitHub chỉ trong vòng 72 giờ, và sau ba tháng đã vượt mốc 350.000 sao. Hệ sinh thái Skill của Claude Code tăng từ 50 lên hơn 334 skill chỉ trong sáu tháng. Hermes Agent còn đi xa hơn nữa khi cho phép agent tự xây dựng các kỹ năng có thể tái sử dụng. Theo dữ liệu từ Vela Partners, trong 90 ngày qua, hai danh mục “trợ lý AI cá nhân” và “plugin Skill dành cho agent” đã cùng nhau thu hút thêm 244.000 sao trên GitHub. Đây là một cuộc bùng nổ kỹ năng (Skill) thực sự.
Công việc của Perseus Yang nằm ngay trung tâm của cuộc bùng nổ này. Với nền tảng học thuật về Toán học và Khoa học Máy tính tại Đại học Cornell, là thành viên Hội đồng Doanh nghiệp Forbes và được chọn vào Học bổng THINC, trong vài năm gần đây ông đã tham gia và duy trì hơn mười dự án mã nguồn mở liên quan đến AI trên GitHub—bao gồm mở rộng kỹ năng cho agent, điều khiển thiết bị di động, công cụ tối ưu hóa động cơ AI, agent phân tích dữ liệu địa lý (GEO), quy trình tự động hóa nội dung và cơ sở hạ tầng giao thức thanh toán. Đặc điểm nổi bật của ông là kết hợp vững vàng giữa nền tảng kỹ thuật sâu sắc và trực giác sản phẩm mạnh mẽ. Ông không chỉ viết mã, mà còn xuất phát từ nhu cầu người dùng để xác định một công cụ nên được thiết kế như thế nào, rồi triển khai toàn bộ vòng đời—từ thiết kế, xây dựng đến thúc đẩy áp dụng.
Dưới đây là một số đánh giá cốt lõi mà ông hình thành trong quá trình này.
Đánh giá thứ nhất: Hệ thống Skill là cơ sở hạ tầng bị đánh giá thấp nhất trong kỷ nguyên agent AI
Sau khi Anthropic công bố Agent Skills dưới dạng tiêu chuẩn mở vào cuối năm 2025, Codex CLI của OpenAI cũng đã áp dụng cùng định dạng SKILL.md. Trung tâm đăng ký ClawHub của OpenClaw hiện đã tích lũy hơn 13.000 skill do cộng đồng đóng góp; hệ sinh thái Claude Code cũng đang nhanh chóng bắt kịp. Ý nghĩa của Skill vượt xa khái niệm đơn thuần là “cắm thêm plugin cho agent”. Về bản chất, nó là cách để những người không biết lập trình cũng có thể tham gia vào lập trình AI. Một chuyên viên vận hành chỉ cần viết một file SKILL.md bằng ngôn ngữ tự nhiên là đã có thể dạy cho agent một quy trình làm việc mới. Đây là một bước chuyển đổi mô hình (paradigm shift): sức mạnh thực sự của AI không phụ thuộc vào số lượng tham số của mô hình, mà vào lượng kiến thức chuyên ngành được tích hợp vào mô hình—và Skill chính là công cụ trao quyền tích hợp kiến thức ấy từ tay kỹ sư sang tay mọi người.
Tuy nhiên, Perseus nhận ra một vấn đề: phần lớn các skill hiện nay tập trung chủ yếu vào lĩnh vực kỹ thuật—đánh giá mã nguồn, thiết kế giao diện người dùng, DevOps, kiểm thử… Trong khi đó, kiến thức chuyên môn ngoài kỹ thuật gần như chưa được mã hóa một cách hệ thống thành các skill. Điều này cho thấy phạm vi bao phủ của hệ sinh thái skill còn rất xa so với tiềm năng vốn có của nó.
Quan sát này thúc đẩy ông khởi xướng loạt dự án mã nguồn mở trong lĩnh vực chuỗi công cụ GTM (Go-to-Market). Dự án tiêu biểu nhất là GTM Engineer Skills—một tập hợp các skill dành cho Claude Code và Codex, bao quát toàn bộ quy trình làm việc nhằm đảm bảo khả năng khám phá bởi AI (AI discoverability) của các công cụ AI, hiện đã đạt hơn 600 sao trên GitHub. Dự án này mã hóa những công việc thường đòi hỏi sự phối hợp giữa chuyên gia SEO, nhà chiến lược nội dung và lập trình viên giao diện người dùng thành các quy trình tự động hóa có thể thực hiện độc lập bởi một người: kiểm toán khả năng khám phá bởi AI của website, tối ưu cấu trúc nội dung, nghiên cứu từ khóa, và xây dựng lớp dữ liệu có thể phân tích tự động cho trực quan hóa. Công cụ kiểm toán không chỉ đưa ra khuyến nghị, mà tự động phát hiện framework phía trước (frontend framework), rồi sinh mã sửa lỗi có thể gửi trực tiếp dưới dạng Pull Request. Cùng hướng đi này, ông còn phát triển công cụ phân tích GEO đi kèm, có khả năng đồng thời gửi truy vấn tới ChatGPT, Claude, Gemini và Perplexity để phân tích tỷ lệ đề cập thương hiệu, cảm xúc, thị phần và vị trí cạnh tranh, đồng thời xuất báo cáo HTML tương tác và dữ liệu có cấu trúc.
Kết quả thực tế chứng minh rõ giá trị sản phẩm của bộ công cụ này. Các công ty như Articuler AI và Axis Robotics đã sử dụng GTM Engineer Skills để hoàn tất toàn bộ quy trình—từ nghiên cứu ban đầu tới xây dựng Trung tâm Tài nguyên (Resource Center)—chỉ trong vài giờ, trong khi theo phương thức truyền thống, công việc này thường cần hàng chục giờ phối hợp liên phòng ban. Sự chênh lệch hiệu suất này không đến từ năng lực mô hình, mà từ sự hiểu biết sâu sắc và khả năng sản phẩm hóa (productization) quy trình GTM của Perseus: ông chia yêu cầu mơ hồ “nâng cao khả năng khám phá bởi AI” thành các giai đoạn chuẩn hóa mà agent có thể thực hiện từng bước, mỗi giai đoạn đều có đầu vào, đầu ra và kiểm tra chất lượng rõ ràng. Hiện bộ công cụ này đang được khoảng chục startup và nhiều tập đoàn nằm trong danh sách Fortune 500 sử dụng; công cụ mã nguồn mở là cửa ngõ, còn sản phẩm thương mại hóa là sự mở rộng quy mô—cả hai chia sẻ cùng một lõi công nghệ.
Dự án này bản thân nó đã có giá trị, nhưng theo Perseus, mệnh đề được xác minh còn quan trọng hơn: ranh giới năng lực của hệ thống Skill không chỉ bó hẹp trong lĩnh vực kỹ thuật. Chiến lược sản phẩm, go-to-market, phân tích kinh doanh—bất kỳ kiến thức chuyên môn nào có thể được mô tả một cách có cấu trúc—đều có thể được mã hóa thành năng lực cho agent.
Đánh giá thứ hai: Ranh giới thao tác của agent AI không nên dừng lại ở trình duyệt và API
Cuộc thảo luận về agent năm 2026 chủ yếu xoay quanh agent trình duyệt và tích hợp API. LangGraph, CrewAI và Google ADK tạo nên một hệ sinh thái đa agent phong phú về biên soạn (orchestration). Tuy nhiên, Perseus nhận ra một điểm mù cấu trúc: phần lớn hoạt động số toàn cầu diễn ra trong các ứng dụng gốc trên điện thoại—mạng xã hội, thanh toán, trò chơi, tin nhắn—trong khi những ứng dụng này không có API công khai, cũng chẳng có đối tác tương đương trình duyệt. Các khuôn khổ hiện tại không thể điều khiển WeChat, TikTok, WhatsApp hay Alipay. Điện thoại là giao diện tính toán phổ biến nhất toàn cầu, nhưng cơ sở hạ tầng cho agent chạy trên ứng dụng gốc điện thoại gần như bằng không.
Suy nghĩ của Perseus là: Tại sao tất cả đều đang dạy AI cách điều khiển trình duyệt, mà lại chẳng ai nghiêm túc dạy nó cách điều khiển điện thoại? Sự bùng nổ của browser agent phần lớn là nhờ web vốn dĩ thân thiện với tự động hóa—có DOM, có API, có những công cụ chín muồi như Playwright. Nhưng điện thoại lại là một thế giới hoàn toàn khác. Ứng dụng gốc là một “hộp đen”, thiếu mô tả giao diện có cấu trúc; việc thao tác chỉ có thể thực hiện thông qua mô phỏng các thao tác chạm và vuốt của con người. Độ khó của bài toán này không nằm ở việc LLM hiểu một nút có nên nhấn hay không, mà ở chỗ toàn bộ tầng thực thi phải được xây dựng lại từ đầu: quản lý kết nối thiết bị, phân tích trạng thái màn hình, cơ chế loại trừ thiết bị giữa các agent, và ranh giới an ninh cho các thao tác nhạy cảm.
Đánh giá này dẫn đến sự ra đời của OpenPocket—một khuôn khổ mã nguồn mở cho phép agent do LLM điều khiển tự chủ vận hành thiết bị Android thông qua ADB, hiện có khoảng chục người đóng góp và hơn 500 lần commit. Những việc người dùng thực sự đang làm với nó nói lên rất nhiều điều: tự động quản lý tài khoản mạng xã hội, trả lời tin nhắn giúp bạn trong các ứng dụng nhắn tin tức thì (IM), xử lý thanh toán và hóa đơn trên điện thoại, thậm chí tự chơi game di động. Một tình huống điển hình là: người dùng dùng ngôn ngữ tự nhiên ra lệnh cho agent “mỗi sáng lúc 8 giờ mở Slack để hoàn tất điểm danh”, và agent sẽ duy trì tác vụ này một cách bền vững trong một phiên riêng biệt, biến một thao tác thủ công lặp lại mỗi ngày thành một quy trình tự động chạy nền.
Trong dự án này, Perseus đã thực hiện một số lựa chọn mang tính sản phẩm và kiến trúc mà ông cho là then chốt. Thứ nhất, agent có thể tự động tạo skill mới trong quá trình chạy. Khi gặp một quy trình thao tác chưa từng thấy, nó có thể lưu các bước học được dưới dạng file SKILL.md có thể tái sử dụng, để lần sau gọi trực tiếp. Điều này có nghĩa agent không phải một công cụ có năng lực cố định, mà là một hệ thống càng dùng càng mạnh. Thứ hai, mọi thao tác nhạy cảm đều phải được con người phê duyệt—thay vì để agent tự quyết định đâu là an toàn. Theo ông, điều nguy hiểm nhất đối với agent tự chủ không phải là việc nó làm sai, mà là việc nó “tự tin” làm sai và cứ tưởng mình đúng. Thứ ba, mỗi agent hoàn toàn tách biệt, gắn với thiết bị, cấu hình và trạng thái phiên riêng—nhiều agent có thể chạy song song mà không gây nhiễu lẫn nhau. Nếu chỉ các kỹ sư TypeScript mới có thể mở rộng năng lực cho agent, thì hệ sinh thái này sẽ mãi không thể phát triển, vì vậy OpenPocket—giống như Claude Code—cũng sử dụng SKILL.md làm định dạng tiêu chuẩn để mở rộng năng lực.
Toàn bộ hệ thống hỗ trợ hơn 29 cấu hình LLM khác nhau; điện thoại dùng cho agent hoàn toàn tách biệt với điện thoại cá nhân của người dùng; và mọi dữ liệu được lưu trữ cục bộ. Năm 2026, khi OWASP đưa “lạm dụng công cụ” vào danh sách Mười rủi ro hàng đầu của AI dạng agent và các nghĩa vụ đối với AI “cao rủi ro” theo Đạo luật AI của Liên minh Châu Âu sắp có hiệu lực, thì thiết kế lấy cục bộ làm ưu tiên và luôn có con người tham gia (human-in-the-loop) không phải là sự bảo thủ—mà là điều kiện tiên quyết để agent có thể bước vào các tình huống thực tế.
Đánh giá thứ ba: Giá trị của mã nguồn mở không nằm ở chính mã nguồn, mà ở việc định nghĩa tiêu chuẩn ở tầng cơ sở hạ tầng
Hiểu biết của Perseus về mã nguồn mở không chỉ đơn thuần là “đưa mã lên GitHub”. Ông nhiều lần nhấn mạnh một quan điểm: hệ sinh thái mã nguồn mở AI năm 2026 đang ở trong một “cửa sổ cơ hội” khi các tiêu chuẩn chưa cứng hóa—những mẫu kiến trúc và đặc tả giao diện được cộng đồng chấp nhận hiện nay sẽ trở thành cơ sở hạ tầng mặc định của toàn ngành trong vài năm tới. Trong cửa sổ này, việc định nghĩa một phân khúc hệ sinh thái còn quan trọng hơn nhiều so với việc tối ưu một giải pháp đã có.
Cụ thể hơn, dự án Skill của ông đã thúc đẩy một việc có ý nghĩa kỹ thuật rõ ràng: chứng minh rằng định dạng SKILL.md không chỉ là một “container” cho công cụ kỹ thuật, mà còn là một tiêu chuẩn mã hóa kiến thức chuyên ngành đủ phổ quát. Khi cùng một file SKILL.md có thể được tải và thực thi đồng thời bởi Claude Code, OpenAI Codex CLI và OpenClaw, nó thực chất đã trở thành “đơn vị năng lực có thể di chuyển” (portable capability unit) trong hệ sinh thái agent AI. Perseus đã nhét toàn bộ quy trình làm việc go-to-market—một lĩnh vực phi kỹ thuật—vào định dạng này và vận hành thành công quy trình tự động hóa từ kiểm toán đến sửa lỗi mã, đây là một minh chứng có trọng lượng cho tính phổ quát của tiêu chuẩn Skill.
Dự án agent điện thoại của ông lại giải quyết một khoảng trống kiến trúc ở tầng thực thi của agent. Các khuôn khổ agent hiện tại phụ thuộc vào các giao diện có cấu trúc khi gọi công cụ—hoặc là API, hoặc là DOM. OpenPocket buộc phải thực hiện thao tác trong môi trường hoàn toàn không có giao diện có cấu trúc, chỉ dựa thuần túy vào việc phân tích pixel màn hình và tiêm sự kiện chạm. Điều này buộc dự án phải thiết kế lại từ底层 vòng lặp nhận thức–ra quyết định–thực thi (perception-decision-action loop) của agent, bao gồm phân tích trạng thái thiết bị theo thời gian thực, giao thức loại trừ thiết bị giữa các agent, và cơ chế phục hồi tự động khi thao tác thất bại. Đây không phải là sự thích nghi đơn giản với các khuôn khổ agent hiện có, mà là một giải pháp kiến trúc độc lập, tiến hóa riêng nhằm giải quyết bài toán “thao tác tự chủ trong môi trường không có API”.
Thiết kế kỹ thuật của hai dự án này đáng được nói riêng. OpenPocket áp dụng kiến trúc tách biệt ba tầng: Manager, Gateway và Agent Runtime—mỗi tầng có thể phát triển độc lập, và người đóng góp từ cộng đồng chỉ cần tập trung vào tầng mà họ am hiểu. Mỗi skill trong GTM Engineer Skills tuân theo thiết kế pipeline theo giai đoạn, đầu ra của giai đoạn trước là đầu vào của giai đoạn sau, giữa các giai đoạn có cổng kiểm tra chất lượng bắt buộc, quy trình làm việc có thể tạm dừng và khôi phục ở bất kỳ giai đoạn nào, và lỗi có thể được xác định chính xác đến từng giai đoạn cụ thể. Mục đích của những lựa chọn kiến trúc này là chung một điều: khiến dự án mã nguồn mở có thể được người dùng thực tế tin tưởng và sử dụng trong môi trường sản xuất.
Từ góc nhìn sản phẩm, hai dự án này còn có một điểm chung nữa: Perseus luôn đặt “ai sẽ dùng” và “làm sao để mở rộng” lên hàng đầu trong mọi quyết định kiến trúc. Người dùng mục tiêu của GTM Engineer Skills không phải kỹ sư mà là đội ngũ tăng trưởng (growth team), nên mỗi skill đều có cam kết rõ ràng về đầu vào–đầu ra và kiểm tra chất lượng nội tại, giúp người dùng phi kỹ thuật cũng hiểu được agent đang làm gì. Cơ chế mở rộng SKILL.md, tác vụ lên lịch bằng ngôn ngữ tự nhiên và khả năng kết nối đa kênh (Telegram, Discord, WhatsApp, CLI) của OpenPocket đều nhằm giảm rào cản sử dụng cho người dùng phi kỹ thuật. Theo ông, nếu một dự án cơ sở hạ tầng mã nguồn mở chỉ có kỹ sư mới dùng được, thì trần phát triển của nó chỉ cao bằng kích thước cộng đồng kỹ sư. Thiết kế thực sự có đòn bẩy là thiết kế cho phép ranh giới năng lực của agent được mở rộng bởi những người làm việc trong mọi lĩnh vực.
Mô hình này xuyên suốt nhiều dự án của ông: không phải phát triển ứng dụng trên các khuôn khổ hiện có, mà là xác định những thành phần thiếu hụt ở tầng cơ sở hạ tầng của hệ sinh thái agent, rồi tự tay xây dựng chúng.
Tầm nhìn lớn hơn
Hệ sinh thái AI mã nguồn mở năm 2026 đang trải qua một khoảnh khắc tương tự như hệ sinh thái điện toán đám mây (cloud-native) đầu những năm 2010: các tiêu chuẩn và công cụ ở tầng cơ sở hạ tầng đang được định hình, và những định nghĩa này sẽ chi phối lộ trình phát triển của toàn ngành trong nhiều năm tới. Trong cửa sổ cơ hội này, mỗi định dạng Skill được cộng đồng chấp nhận, mỗi mẫu kiến trúc agent được kiểm chứng, và mỗi khoảng trống hệ sinh thái được lấp đầy, đều đang góp phần định hình lớp giao diện tiếp theo của AI.
Việc Perseus Yang đang làm rất đơn giản: dùng năng lực kỹ thuật và tư duy sản phẩm để khám phá các mô hình (paradigm) tiên phong trong kỷ nguyên AI. Mô hình sẽ tiếp tục mạnh lên, nhưng câu hỏi “ai sẽ định nghĩa cách agent tương tác với thế giới thực?” và “ai sẽ quyết định kiến thức chuyên ngành nên được mã hóa và phân phối dưới hình thức nào?”—những câu trả lời cho những câu hỏi này sẽ không tự nhiên nảy sinh từ mô hình, mà chỉ có thể được những người thực sự dấn thân vào việc tạo ra sản phẩm từng bước thử nghiệm và tìm ra.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News













