
Dữ liệu của Anthropic: Gần một nửa lượt gọi AI Agent tập trung vào kỹ thuật phần mềm; 16 lĩnh vực chuyên sâu này vẫn còn là thị trường chưa khai phá
Tuyển chọn TechFlowTuyển chọn TechFlow

Dữ liệu của Anthropic: Gần một nửa lượt gọi AI Agent tập trung vào kỹ thuật phần mềm; 16 lĩnh vực chuyên sâu này vẫn còn là thị trường chưa khai phá
Y tế chiếm 1%, pháp lý chiếm 0,9%, giáo dục chiếm 1,8%. Đây không phải là những thị trường bão hòa, mà gần như còn chưa tồn tại.
Tác giả: Garry's List
Biên dịch: TechFlow
Giới thiệu của TechFlow: Anthropic vừa công bố nghiên cứu toàn diện nhất cho đến nay về việc sử dụng thực tế các Agent AI, trong đó dữ liệu cốt lõi cho thấy: lĩnh vực kỹ thuật phần mềm chiếm gần 50% tổng số lần gọi công cụ của các Agent AI, trong khi 16 lĩnh vực chuyên biệt khác — bao gồm y tế, pháp lý, giáo dục… — cộng lại chưa đạt nổi một nửa phần còn lại, và mỗi lĩnh vực đều chiếm dưới 5%.
Đây không phải là dấu hiệu của thị trường bão hòa, mà chính là bản đồ chỉ ra 300 “kỳ lân AI chuyên biệt” đang chờ được xây dựng — điều giá trị hơn cả là một phát hiện phản trực quan được bài viết trích dẫn: mô hình hiện đã có thể hoạt động độc lập gần 5 giờ, nhưng người dùng thực tế chỉ để nó làm việc trong 42 phút; “khoảng cách niềm tin” này bản thân nó đã là cơ hội sản phẩm tiếp theo.
Toàn văn như sau:
Kỹ thuật phần mềm chiếm gần 50% tổng số lần gọi công cụ của mọi Agent AI. Mười sáu lĩnh vực chuyên biệt — như y tế, pháp lý, tài chính… — gần như chưa được khai phá, và không lĩnh vực nào vượt quá 9%. Y tế chiếm 1%, pháp lý chiếm 0,9%, giáo dục chiếm 1,8%. Đây không phải những thị trường bão hòa, mà là những thị trường gần như chưa tồn tại.
Nếu hôm nay tôi khởi nghiệp, tôi sẽ chăm chú nhìn vào vùng màu đỏ trên biểu đồ cột ở trên cho đến khi thấy được tương lai của chính mình.
Aaron Levie, nhà sáng lập Box, nhận xét:
Biểu đồ này là lời nhắc nhở rõ ràng rằng cơ hội trong lĩnh vực Agent AI hiện nay lớn đến mức nào.
Tất nhiên sẽ có rất nhiều cơ hội theo chiều ngang, nhưng cũng có vô số quy trình làm việc đòi hỏi chuyên môn sâu trong từng lĩnh vực cụ thể để thực sự giúp người dùng tự động hóa các quy trình đặc thù của ngành mình.
Mô hình chung là: Xây dựng phần mềm Agent có khả năng truy cập dữ liệu chuyên hữu, thiết kế sao cho kết nối hiệu quả giữa người dùng và Agent trong xử lý quy trình làm việc, đồng thời tích hợp khả năng kỹ thuật ngữ cảnh (context engineering) chuyên sâu theo từng lĩnh vực và khả năng thúc đẩy quản lý thay đổi tại phía khách hàng.
Hiện nay, vẫn còn khoảng trống khổng lồ ở rất nhiều lĩnh vực.
Kỹ thuật phần mềm chiếm một nửa tổng hoạt động của mọi Agent AI. Nửa còn lại phân tán giữa 16 lĩnh vực chuyên biệt, không lĩnh vực nào vượt quá 9%. Y tế chiếm 1%, pháp lý chiếm 0,9%, giáo dục chiếm 1,8%. Đây không phải những thị trường bão hòa, mà là những thị trường gần như chưa tồn tại.
Anthropic vừa công bố nghiên cứu toàn diện nhất cho đến nay về việc sử dụng thực tế các Agent AI. Phát hiện cốt lõi là: kỹ thuật phần mềm chiếm tới 49,7% tổng số lần gọi công cụ của các Agent trên API của Anthropic. Kết luận then chốt bị “chôn vùi” phía sau là: tất cả những lĩnh vực còn lại đều là biển xanh.
Sự chậm trễ trong triển khai
Có một con số khiến các nhà khởi nghiệp hết sức phấn khích: năng lực của mô hình hiện đã vượt xa giới hạn niềm tin mà người dùng sẵn sàng dành cho nó.
Các đánh giá năng lực từ METR cho thấy Claude có thể giải quyết các nhiệm vụ đòi hỏi con người gần năm giờ để hoàn thành. Tuy nhiên, trong thực tế sử dụng, độ dài hội thoại ở phân vị thứ 99,9 chỉ khoảng 42 phút. Khoảng chênh lệch này — giữa những gì AI có thể làm và những gì chúng ta cho phép nó làm — chính là một cơ hội khổng lồ.

Hình ảnh: Thời gian huấn luyện dài nhất của Claude Code gần như tăng gấp đôi trong vòng ba tháng. Điều này không chỉ nâng cao năng lực mà còn gia tăng niềm tin.
Nguồn:x.com
Từ tháng 10 năm 2025 đến tháng 1 năm 2026, độ dài hội thoại đơn ở phân vị thứ 99,9 gần như tăng gấp đôi, từ dưới 25 phút lên trên 45 phút. Sự gia tăng này ổn định trên mọi phiên bản mô hình. Đây không chỉ là do mô hình trở nên mạnh hơn, mà còn vì người dùng học hỏi qua từng lần sử dụng, dần mở rộng niềm tin vào Agent.
“Từ tháng 8 đến tháng 12, tỷ lệ thành công của Claude Code đối với các nhiệm vụ khó khăn nhất trong số người dùng nội bộ đã tăng gấp đôi; đồng thời, số lần can thiệp thủ công trong mỗi hội thoại giảm từ 5,4 xuống còn 3,3 lần.”
Năng lực đã sẵn có, nhưng việc triển khai vẫn chưa theo kịp. Đây không phải vấn đề, mà là cơ hội sản phẩm.
Niềm tin tiến hóa như thế nào
20% người dùng mới tự động phê duyệt các hành động của Claude Code. Đến khi đạt 750 hội thoại, hơn 40% hội thoại được vận hành hoàn toàn ở chế độ phê duyệt tự động. Nhưng có một phát hiện phản trực quan: người dùng giàu kinh nghiệm lại can thiệp nhiều hơn, chứ không ít hơn. Người mới can thiệp ở 5% lượt tương tác, trong khi người dùng lâu năm can thiệp ở 9%.

Hình ảnh: Niềm tin là một kỹ năng được tích lũy liên tục. Người dùng mới tự động phê duyệt 20% hội thoại. Đến 750 hội thoại, tỷ lệ này vượt quá 40%.
Ảnh: Anthropic
Nguồn: x.com
Điều này không mâu thuẫn, mà là sự chuyển đổi trong chiến lược giám sát. Người mới bắt đầu phê duyệt từng bước trước khi hành động diễn ra, trong khi người dùng lâu năm lại chọn ủy quyền trước rồi can thiệp khi phát sinh vấn đề — họ đã chuyển từ phê duyệt trước sang giám sát chủ động.
Dưới đây là một phát hiện đáng chú ý về mặt an ninh: Với các nhiệm vụ phức tạp, Claude Code chủ động yêu cầu làm rõ tần suất cao hơn gấp hai lần so với tần suất can thiệp thủ công của con người. Agent sẽ tạm dừng để xác nhận, thay vì chạy thẳng tới cùng. Đây là tính năng, không phải lỗi.
“Thông điệp cốt lõi của nghiên cứu này là: Tính tự chủ mà Agent thể hiện trong thực tiễn là kết quả của sự tương tác giữa mô hình, người dùng và sản phẩm. Khi không chắc chắn, Claude sẽ tạm dừng để đặt câu hỏi, từ đó giới hạn mức độ độc lập của chính nó. Người dùng xây dựng niềm tin thông qua quá trình cộng tác với mô hình và điều chỉnh chiến lược giám sát của mình cho phù hợp.”
Chiến lược AI chuyên biệt của Levie
Aaron Levie đã chỉ ra khối tài nguyên và giá trị khổng lồ đang chờ được khai phá: xây dựng phần mềm Agent có khả năng truy cập dữ liệu chuyên hữu, thực sự giải quyết các vấn đề và nhu cầu thực tế của con người, tích hợp đầy đủ ngữ cảnh để tối đa hóa đầu ra thông minh, và — điều mà phần lớn các nhà khởi nghiệp thường bỏ qua — thúc đẩy quản lý thay đổi tại phía khách hàng.
Chính điểm cuối cùng này là lý do khiến AI chuyên biệt cực kỳ khó sao chép. Bất kỳ ai cũng có thể xây dựng một lớp bao bọc API, nhưng rất ít người thực sự am hiểu và kiểm soát được các quy trình làm việc đặc thù, các ràng buộc pháp lý và rào cản tổ chức trong các lĩnh vực như thanh toán y tế, khám phá bằng chứng pháp lý hay cấp phép xây dựng.
Trong vài thập kỷ qua, SaaS đã tăng trưởng mười lần mỗi thập kỷ. Trong 20 năm qua, hơn 40% vốn đầu tư mạo hiểm đã đổ vào các công ty SaaS. Ngành này đã sản sinh hơn 170 kỳ lân SaaS. Lập luận rất đơn giản: Mỗi kỳ lân SaaS như vậy đều đang chờ đợi một phiên bản AI chuyên biệt tương ứng xuất hiện — và phiên bản AI ấy có thể lớn hơn gấp mười lần, bởi nó không chỉ thay thế phần mềm mà còn thay thế cả nhân sự vận hành.
Bản chất của việc cùng xây dựng
Phát hiện cốt lõi từ Anthropic xứng đáng được bất kỳ cá nhân nào tham gia xây dựng chính sách AI lưu tâm nghiêm túc. Tính tự chủ không phải là thuộc tính cố hữu của mô hình, mà là kết quả do mô hình, người dùng và sản phẩm cùng tạo nên. Đánh giá trước khi triển khai không thể nắm bắt được yếu tố này; bạn phải đo lường nó trong môi trường sử dụng thực tế.
Theo tuyên bố chính thức của Anthropic:
Kỹ thuật phần mềm chiếm khoảng 50% tổng số lần gọi công cụ của các Agent trên API của chúng tôi, nhưng chúng tôi cũng đang chứng kiến sự xuất hiện của các ngành khác. Khi ranh giới giữa rủi ro và tính tự chủ tiếp tục mở rộng, việc giám sát sau khi triển khai trở nên cực kỳ quan trọng. Chúng tôi khuyến khích các nhà phát triển mô hình khác mở rộng nghiên cứu này.
Các con số về an ninh rất đáng an tâm: 73% lần gọi công cụ có sự tham gia của con người trong vòng phản hồi (human-in-the-loop), và chỉ 0,8% hành động là không thể đảo ngược. Các kịch bản triển khai rủi ro cao nhất — như rò rỉ khóa API hoặc giao dịch mã hóa tự chủ — chủ yếu là các bài kiểm tra an ninh, chứ không phải môi trường sản xuất thực tế.
“Các yêu cầu quy định về mô hình tương tác cụ thể — ví dụ như bắt buộc con người phê duyệt từng hành động — chỉ tạo thêm ma sát, chứ không nhất thiết mang lại lợi ích về an ninh.”
Các chính sách bắt buộc “phê duyệt từng hành động” sẽ tiêu diệt lợi ích về năng suất mà không làm tăng tính an toàn. Mục tiêu tốt hơn là đảm bảo con người có khả năng giám sát và can thiệp, chứ không phải quy định cụ thể quy trình phê duyệt.
Kỳ lân đang ẩn giấu ở đâu
Bản đồ đã được vẽ xong. Kỹ thuật phần mềm đã có người làm. Y tế, pháp lý, tài chính, giáo dục, hỗ trợ khách hàng, hậu cần — 16 lĩnh vực chuyên biệt, mỗi lĩnh vực đều chiếm thị phần dưới một chữ số — đều đang chờ ai đó tích hợp chuyên môn lĩnh vực một cách thực sự vào Agent.
Trước đây đã xuất hiện 300 kỳ lân SaaS; 300 kỳ lân AI chuyên biệt tiếp theo sắp ra đời. Những nhà sáng lập lựa chọn một lĩnh vực chuyên biệt cụ thể, tích hợp chuyên môn lĩnh vực một cách thực sự vào Agent và tìm ra cách thúc đẩy quản lý thay đổi sẽ thống lĩnh thị trường phần mềm doanh nghiệp trong thập kỷ tới.
Mô hình đã có thể làm việc trong năm giờ, nhưng người dùng chỉ để nó làm việc 42 phút. Đó chính là tín hiệu: Chúng ta vẫn đang ở giai đoạn cực kỳ sơ khai, còn rất nhiều điều có thể xây dựng, và còn vô số nơi chưa từng chứng kiến dù chỉ một phút trí tuệ nhân tạo phát huy tác dụng.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News














