
Báo cáo an ninh SlowMist × Bitget AI: Liệu có thực sự an toàn khi giao tiền cho các Agent AI như “Tôm hùm”?
Tuyển chọn TechFlowTuyển chọn TechFlow

Báo cáo an ninh SlowMist × Bitget AI: Liệu có thực sự an toàn khi giao tiền cho các Agent AI như “Tôm hùm”?
Báo cáo này hệ thống hóa các vấn đề an ninh liên quan đến AI Agent trong nhiều tình huống từ hai góc độ: nghiên cứu an ninh và thực tiễn tại các sàn giao dịch.
Tác giả: SlowMist và Bitget

I. Bối cảnh
Cùng với sự phát triển nhanh chóng của công nghệ mô hình lớn (Large Language Models – LLM), các Agent AI đang dần tiến hóa từ những trợ lý thông minh đơn giản thành các hệ thống tự động có khả năng thực hiện nhiệm vụ một cách độc lập. Trong hệ sinh thái Web3, xu hướng này thể hiện rõ rệt hơn bao giờ hết. Ngày càng nhiều người dùng bắt đầu thử nghiệm việc để Agent AI tham gia phân tích thị trường, tạo chiến lược và giao dịch tự động — biến khái niệm “trợ lý giao dịch hoạt động liên tục 7×24 giờ” dần trở thành hiện thực. Với việc Binance và OKX ra mắt nhiều tính năng AI Skills, Bitget ra mắt kho tài nguyên Skills – Agent Hub và công cụ GetClaw dạng “không cần cài đặt”, các Agent có thể kết nối trực tiếp với API nền tảng giao dịch, dữ liệu trên chuỗi (on-chain) cũng như các công cụ phân tích thị trường, từ đó đảm nhận một phần đáng kể công việc ra quyết định và thực thi giao dịch vốn trước đây do con người đảm nhiệm.
So với các kịch bản tự động hóa truyền thống dưới dạng script, Agent AI sở hữu khả năng ra quyết định độc lập cao hơn và khả năng tương tác phức tạp hơn với hệ thống. Chúng có thể truy cập dữ liệu thị trường, gọi API giao dịch, quản lý tài sản tài khoản, thậm chí mở rộng hệ sinh thái chức năng thông qua các plugin hoặc Skill. Sự nâng cấp về năng lực này đã làm giảm đáng kể ngưỡng sử dụng giao dịch tự động, đồng thời giúp ngày càng nhiều người dùng phổ thông tiếp cận và sử dụng các công cụ giao dịch tự động.
Tuy nhiên, mở rộng năng lực cũng đồng nghĩa với việc mở rộng bề mặt tấn công.
Trong các kịch bản giao dịch truyền thống, rủi ro an ninh thường tập trung vào các vấn đề như lộ thông tin xác thực tài khoản, lộ khóa API hoặc các cuộc tấn công lừa đảo (phishing). Trong kiến trúc Agent AI, những rủi ro mới đang xuất hiện. Ví dụ: tấn công tiêm nhiễm lời nhắc (Prompt Injection) có thể ảnh hưởng đến logic ra quyết định của Agent; các plugin hoặc Skill độc hại có thể trở thành cửa ngõ mới cho các cuộc tấn công chuỗi cung ứng; cấu hình môi trường chạy không phù hợp cũng có thể dẫn đến việc dữ liệu nhạy cảm hoặc quyền hạn API bị lạm dụng. Một khi những vấn đề này kết hợp với hệ thống giao dịch tự động, hậu quả tiềm tàng sẽ không chỉ giới hạn ở việc rò rỉ thông tin mà còn có thể gây ra tổn thất tài sản thực tế.
Đồng thời, khi ngày càng nhiều người dùng bắt đầu kết nối Agent AI với tài khoản giao dịch của họ, các đối tượng tấn công cũng nhanh chóng thích nghi với sự thay đổi này. Các mô hình lừa đảo mới nhắm vào người dùng Agent, việc đầu độc plugin độc hại và lạm dụng khóa API đang dần trở thành những mối đe dọa an ninh mới. Trong bối cảnh Web3, các thao tác tài sản thường mang giá trị cao và không thể hoàn lại (irreversible). Khi một hệ thống tự động bị lạm dụng hoặc đánh lừa, mức độ rủi ro cũng có thể bị khuếch đại thêm.
Dựa trên những bối cảnh nêu trên, SlowMist và Bitget phối hợp soạn thảo báo cáo này từ hai góc nhìn: nghiên cứu an ninh và thực tiễn vận hành nền tảng giao dịch, nhằm hệ thống hóa toàn diện các vấn đề an ninh của Agent AI trong nhiều tình huống khác nhau. Hy vọng báo cáo này sẽ cung cấp một số tham khảo an ninh hữu ích cho người dùng, nhà phát triển và các nền tảng, góp phần thúc đẩy sự phát triển bền vững hơn giữa đổi mới và an ninh trong hệ sinh thái Agent AI.
II. Các mối đe dọa an ninh thực tế đối với Agent AI | SlowMist
Sự xuất hiện của Agent AI đã khiến hệ thống phần mềm chuyển dần từ mô hình “con người chủ động thao tác” sang “mô hình tham gia ra quyết định và thực thi”. Sự thay đổi kiến trúc này làm tăng đáng kể khả năng tự động hóa, nhưng đồng thời cũng mở rộng bề mặt tấn công. Dựa trên cấu trúc kỹ thuật hiện tại, một hệ thống Agent AI điển hình thường gồm nhiều thành phần: lớp tương tác người dùng, lớp logic ứng dụng, lớp mô hình, lớp gọi công cụ (Tools / Skills), hệ thống bộ nhớ (Memory) và môi trường thực thi nền tảng. Các đối tượng tấn công thường không chỉ nhắm vào một module duy nhất, mà cố gắng từng bước ảnh hưởng đến quyền kiểm soát hành vi của Agent thông qua nhiều lớp đường dẫn.

1. Kiểm soát đầu vào và tấn công tiêm nhiễm lời nhắc (Prompt Injection)
Trong kiến trúc Agent AI, đầu vào từ người dùng và dữ liệu bên ngoài thường được đưa trực tiếp vào ngữ cảnh (context) của mô hình, khiến tấn công tiêm nhiễm lời nhắc (Prompt Injection) trở thành một phương thức tấn công quan trọng. Kẻ tấn công có thể xây dựng các chỉ thị đặc biệt nhằm dụ dỗ Agent thực hiện những thao tác vốn không nên được kích hoạt. Ví dụ, trong một số trường hợp, chỉ bằng một lệnh chat đơn giản, Agent đã bị dụ để tạo và thực thi các lệnh hệ thống nguy hiểm.
Một hình thức tấn công phức tạp hơn là tiêm nhiễm gián tiếp: kẻ tấn công ẩn các chỉ thị độc hại trong nội dung trang web, tài liệu hướng dẫn hoặc chú thích mã nguồn. Khi Agent đọc các nội dung này trong quá trình thực hiện nhiệm vụ, chúng có thể nhầm tưởng đây là các chỉ thị hợp lệ. Chẳng hạn, nhúng các lệnh độc hại vào tài liệu plugin, file README hoặc file Markdown có thể khiến Agent thực thi mã độc trong quá trình khởi tạo môi trường hoặc cài đặt phụ thuộc.
Đặc điểm nổi bật của kiểu tấn công này nằm ở chỗ nó thường không dựa vào các lỗ hổng truyền thống, mà lợi dụng cơ chế mô hình tin tưởng vào thông tin ngữ cảnh để ảnh hưởng đến logic hành vi của nó.
2. Đầu độc chuỗi cung ứng trong hệ sinh thái Skills / Plugin
Trong hệ sinh thái Agent AI hiện nay, hệ thống plugin và kỹ năng (Skills / MCP / Tools) là cách quan trọng để mở rộng khả năng của Agent. Tuy nhiên, hệ sinh thái plugin này cũng đang trở thành một cổng tấn công chuỗi cung ứng mới.
Trong quá trình giám sát trung tâm plugin chính thức ClawHub của OpenClaw, SlowMist phát hiện rằng cùng với sự gia tăng số lượng nhà phát triển, một số Skill độc hại đã bắt đầu len lỏi vào hệ sinh thái. Sau khi tổng hợp và phân tích các dấu hiệu IOC (Indicators of Compromise) từ hơn 400 mẫu Skill độc hại, SlowMist nhận thấy phần lớn các mẫu đều trỏ tới một số lượng nhỏ tên miền cố định hoặc nhiều đường dẫn ngẫu nhiên dưới cùng một địa chỉ IP — biểu hiện rõ ràng của việc tái sử dụng tài nguyên, giống như một hành vi tấn công có tổ chức và hàng loạt.

Trong hệ thống Skill của OpenClaw, tệp cốt lõi thường là SKILL.md. Khác với mã nguồn truyền thống, các tệp Markdown này thường đóng vai trò “hướng dẫn cài đặt” và “điểm vào khởi tạo”, nhưng trong hệ sinh thái Agent, chúng thường bị người dùng sao chép và thực thi trực tiếp, từ đó tạo thành một chuỗi thực thi đầy đủ. Kẻ tấn công chỉ cần ngụy trang lệnh độc hại dưới dạng các bước cài đặt phụ thuộc — ví dụ như dùng lệnh curl | bash hoặc mã hóa Base64 để che giấu chỉ thị thực tế — là có thể dụ người dùng thực thi script độc hại.
Trong các mẫu thực tế, một số Skill áp dụng chiến lược “tải hai giai đoạn”: script giai đoạn đầu chỉ chịu trách nhiệm tải và thực thi payload giai đoạn hai, nhằm làm giảm tỷ lệ phát hiện tĩnh (static detection). Ví dụ, một Skill có lượt tải cao mang tên “X (Twitter) Trends” chứa một đoạn lệnh được mã hóa Base64 trong tệp SKILL.md.

Khi giải mã, có thể thấy bản chất của nó là tải và thực thi một script từ xa:


Còn chương trình giai đoạn hai sẽ giả mạo cửa sổ bật lên của hệ thống để thu thập mật khẩu người dùng, đồng thời thu thập thông tin máy cục bộ, tài liệu trên màn hình làm việc và các tệp trong thư mục tải xuống, sau đó đóng gói và gửi toàn bộ lên máy chủ do kẻ tấn công kiểm soát.

Ưu thế cốt lõi của phương thức tấn công này nằm ở chỗ vỏ ngoài (shell) của Skill có thể giữ ổn định tương đối, trong khi kẻ tấn công chỉ cần thay đổi payload từ xa để liên tục cập nhật logic tấn công.
3. Rủi ro ở lớp ra quyết định và lập kế hoạch nhiệm vụ của Agent
Ở lớp logic ứng dụng của Agent AI, các nhiệm vụ thường được mô hình phân chia thành nhiều bước thực thi. Nếu kẻ tấn công có thể ảnh hưởng đến quá trình phân chia này, điều đó có thể khiến Agent thực hiện hành vi bất thường ngay cả khi đang thực hiện một nhiệm vụ hợp pháp.
Ví dụ, trong các quy trình nghiệp vụ đa bước (như triển khai tự động hoặc giao dịch trên chuỗi), kẻ tấn công có thể thay đổi các tham số then chốt hoặc can thiệp vào quá trình phán đoán logic, khiến Agent thay đổi địa chỉ đích hoặc thực hiện thêm các thao tác không mong muốn trong suốt quy trình thực thi.

Trong một ca kiểm toán an ninh trước đây của SlowMist, nhóm đã thành công trong việc tiêm nhiễm lời nhắc độc hại vào phản hồi từ MCP nhằm làm ô nhiễm ngữ cảnh, từ đó dụ dỗ Agent gọi plugin ví để thực hiện giao dịch chuyển tiền trên chuỗi.

Đặc điểm của loại tấn công này là lỗi không xuất phát từ mã do mô hình sinh ra, mà đến từ việc logic lập kế hoạch nhiệm vụ bị thay đổi.
4. Rò rỉ thông tin riêng tư và nhạy cảm trong môi trường IDE / CLI
Sau khi Agent AI được sử dụng rộng rãi trong hỗ trợ phát triển và vận hành tự động, rất nhiều Agent bắt đầu chạy trong các môi trường như IDE, CLI hoặc môi trường phát triển cục bộ. Các môi trường này thường chứa lượng lớn thông tin nhạy cảm, chẳng hạn như tệp cấu hình .env, token API, thông tin đăng nhập dịch vụ đám mây, tệp khóa riêng (private key) và các loại khóa truy cập khác. Một khi Agent có khả năng đọc các thư mục này hoặc lập chỉ mục các tệp dự án trong quá trình thực hiện nhiệm vụ, thông tin nhạy cảm có thể vô tình được đưa vào ngữ cảnh của mô hình.
Trong một số quy trình phát triển tự động, Agent có thể đọc tệp cấu hình trong thư mục dự án khi gỡ lỗi, phân tích nhật ký hoặc cài đặt phụ thuộc. Nếu thiếu chiến lược bỏ qua rõ ràng hoặc kiểm soát truy cập, những thông tin này có thể bị ghi vào nhật ký, gửi tới API mô hình từ xa, hoặc thậm chí bị plugin độc hại gửi đi bên ngoài.
Hơn nữa, một số công cụ phát triển cho phép Agent tự động quét kho mã nguồn để xây dựng bộ nhớ ngữ cảnh (Memory), điều này cũng có thể mở rộng phạm vi lộ thông tin nhạy cảm. Ví dụ: tệp khóa riêng, bản sao cụm từ khôi phục (mnemonic), chuỗi kết nối cơ sở dữ liệu hoặc token API của bên thứ ba đều có thể bị đọc trong quá trình lập chỉ mục.
Trong môi trường phát triển Web3, vấn đề này đặc biệt nổi bật vì các nhà phát triển thường lưu trữ khóa riêng thử nghiệm, token RPC hoặc script triển khai ngay trên môi trường cục bộ. Một khi những thông tin này bị các Skill độc hại, plugin hoặc script từ xa thu thập, kẻ tấn công có thể tiếp tục kiểm soát tài khoản nhà phát triển hoặc môi trường triển khai.
Do đó, trong các tình huống tích hợp Agent AI với IDE / CLI, việc thiết lập chiến lược bỏ qua thư mục nhạy cảm rõ ràng (ví dụ: cơ chế tương tự .agentignore hoặc .gitignore) và các biện pháp cách ly quyền hạn là điều kiện tiên quyết quan trọng để giảm thiểu rủi ro rò rỉ dữ liệu.
5. Sự bất định ở lớp mô hình và rủi ro tự động hóa
Bản thân mô hình AI không phải là một hệ thống hoàn toàn xác định (deterministic); đầu ra của nó tồn tại một mức độ bất ổn nhất định. Hiện tượng “ảo giác mô hình” (model hallucination) xảy ra khi mô hình, trong điều kiện thiếu thông tin, lại sinh ra kết quả trông hợp lý nhưng thực tế sai lệch. Trong các ứng dụng truyền thống, những lỗi này thường chỉ ảnh hưởng đến chất lượng thông tin, nhưng trong kiến trúc Agent AI, đầu ra của mô hình có thể trực tiếp kích hoạt các thao tác hệ thống.
Ví dụ, trong một số trường hợp, mô hình triển khai dự án mà không tra cứu tham số thực tế, thay vào đó lại sinh ra một ID sai và tiếp tục thực hiện quy trình triển khai. Nếu tình huống tương tự xảy ra trong bối cảnh giao dịch trên chuỗi hoặc thao tác tài sản, quyết định sai lầm có thể dẫn đến tổn thất tài chính không thể hoàn lại.

6. Rủi ro thao tác giá trị cao trong bối cảnh Web3
Khác với các hệ thống phần mềm truyền thống, nhiều thao tác trong môi trường Web3 mang tính không thể hoàn lại. Ví dụ: chuyển tiền trên chuỗi, hoán đổi Token (Token Swap), thêm thanh khoản hoặc gọi hợp đồng thông minh — một khi giao dịch đã được ký và phát sóng lên mạng, thường rất khó hủy bỏ hoặc hoàn lại. Do đó, khi Agent AI được sử dụng để thực hiện các thao tác trên chuỗi, rủi ro an ninh của nó cũng bị khuếch đại thêm.
Trong một số dự án thử nghiệm, các nhà phát triển đã bắt đầu để Agent trực tiếp tham gia thực thi chiến lược giao dịch trên chuỗi, ví dụ như giao dịch chênh lệch giá tự động (arbitrage), quản lý tài chính hoặc các thao tác DeFi. Tuy nhiên, nếu Agent bị ảnh hưởng bởi tiêm nhiễm lời nhắc, ô nhiễm ngữ cảnh hoặc tấn công plugin trong quá trình phân chia nhiệm vụ hoặc sinh tham số, nó có thể thay đổi địa chỉ đích, sửa đổi số tiền giao dịch hoặc gọi hợp đồng độc hại trong quá trình giao dịch. Ngoài ra, một số framework Agent cho phép plugin truy cập trực tiếp vào API ví hoặc giao diện ký. Nếu thiếu cơ chế cách ly ký hoặc xác nhận thủ công, kẻ tấn công thậm chí có thể kích hoạt giao dịch tự động thông qua một Skill độc hại.
Do đó, trong bối cảnh Web3, việc gắn kết hoàn toàn Agent AI với hệ thống kiểm soát tài sản là một thiết kế mang rủi ro cao. Mô hình an toàn hơn thường là để Agent chỉ chịu trách nhiệm tạo đề xuất giao dịch hoặc dữ liệu giao dịch chưa ký, trong khi quá trình ký thực tế được thực hiện bởi ví độc lập hoặc xác nhận thủ công. Đồng thời, kết hợp các cơ chế như kiểm tra uy tín địa chỉ, kiểm soát rủi ro AML và mô phỏng giao dịch cũng có thể làm giảm phần nào rủi ro từ giao dịch tự động.
7. Rủi ro hệ thống do thực thi với đặc quyền cao
Nhiều Agent AI trong thực tế triển khai sở hữu đặc quyền hệ thống cao, ví dụ như truy cập hệ thống tệp cục bộ, thực thi lệnh shell hoặc thậm chí chạy với đặc quyền Root. Một khi hành vi của Agent bị điều khiển, phạm vi ảnh hưởng của nó có thể vượt xa một ứng dụng duy nhất.
SlowMist từng thử nghiệm kết nối OpenClaw với phần mềm nhắn tin tức thời như Telegram để đạt được khả năng điều khiển từ xa. Nếu kênh điều khiển này bị kẻ tấn công chiếm đoạt, Agent có thể bị sử dụng để thực thi bất kỳ lệnh hệ thống nào, đọc dữ liệu trình duyệt, truy cập tệp cục bộ hoặc thậm chí điều khiển các ứng dụng khác. Kết hợp với khả năng tương tác của hệ sinh thái plugin và công cụ, Agent loại này về mặt nào đó đã mang đặc trưng của một “công cụ điều khiển từ xa thông minh”.
Nhìn tổng quan, các mối đe dọa an ninh đối với Agent AI đã không còn giới hạn ở các lỗ hổng phần mềm truyền thống, mà đã lan rộng sang nhiều chiều: lớp tương tác mô hình, chuỗi cung ứng plugin, môi trường thực thi và lớp thao tác tài sản. Kẻ tấn công vừa có thể điều khiển hành vi của Agent thông qua lời nhắc, vừa có thể cài cắm cửa hậu ở lớp chuỗi cung ứng thông qua các Skill hoặc gói phụ thuộc độc hại, rồi tiếp tục khuếch đại ảnh hưởng tấn công trong môi trường thực thi đặc quyền cao. Trong bối cảnh Web3, do tính không thể hoàn lại của các thao tác trên chuỗi và giá trị tài sản thực tế liên quan, những rủi ro này thường bị khuếch đại thêm. Vì vậy, trong quá trình thiết kế và sử dụng Agent AI, việc chỉ dựa vào các chiến lược an ninh ứng dụng truyền thống đã không còn đủ để bao phủ toàn bộ bề mặt tấn công mới; cần xây dựng một hệ thống phòng vệ an ninh toàn diện hơn, bao gồm kiểm soát quyền hạn, quản trị chuỗi cung ứng và cơ chế an ninh giao dịch.
III. Thực tiễn an ninh giao dịch với Agent AI | Bitget
Khi năng lực của Agent AI ngày càng mạnh mẽ, chúng không còn chỉ dừng lại ở việc cung cấp thông tin hay hỗ trợ ra quyết định, mà đã bắt đầu trực tiếp tham gia vào các thao tác hệ thống, thậm chí thực hiện giao dịch trên chuỗi. Trong bối cảnh giao dịch tiền mã hóa, sự thay đổi này尤为 rõ rệt. Ngày càng nhiều người dùng bắt đầu thử nghiệm để Agent AI tham gia phân tích thị trường, thực thi chiến lược và giao dịch tự động. Khi Agent có thể gọi trực tiếp các giao diện giao dịch, truy cập tài sản tài khoản và đặt lệnh tự động, vấn đề an ninh của nó cũng chuyển từ “rủi ro an ninh hệ thống” sang “rủi ro tài sản thực tế”. Vậy khi sử dụng Agent AI cho giao dịch thực tế, người dùng nên bảo vệ tài khoản và tiền của mình như thế nào?
Dựa trên thực tiễn này, phần nhỏ dưới đây do Đội An ninh Bitget biên soạn, kết hợp kinh nghiệm vận hành nền tảng giao dịch, giới thiệu hệ thống các chiến lược an ninh cần lưu ý khi sử dụng Agent AI cho giao dịch tự động — từ góc độ an ninh tài khoản, quản lý quyền hạn API, cách ly tài chính và giám sát giao dịch.
1. Các rủi ro an ninh chính trong bối cảnh giao dịch Agent AI

2. An ninh tài khoản
Sự xuất hiện của Agent AI đã làm thay đổi con đường tấn công:
- Không cần đăng nhập vào tài khoản của bạn — chỉ cần có khóa API của bạn
- Không cần bạn phát hiện — Agent hoạt động tự động 7×24 giờ, các thao tác bất thường có thể kéo dài nhiều ngày
- Không cần rút tiền — chỉ cần giao dịch trực tiếp trên nền tảng để tiêu sạch tài sản, đây vẫn là mục tiêu tấn công
Việc tạo, chỉnh sửa hoặc xóa khóa API đều yêu cầu đăng nhập vào tài khoản — nếu tài khoản bị kiểm soát thì quyền quản lý khóa API cũng bị kiểm soát. Cấp độ an ninh tài khoản trực tiếp quyết định giới hạn an ninh tối đa của khóa API.
Bạn nên làm:
- Bật Google Authenticator làm phương thức xác thực hai yếu tố (2FA) chính, thay vì SMS (thẻ SIM có thể bị chiếm đoạt)
- Kích hoạt đăng nhập không mật khẩu bằng Passkey: dựa trên tiêu chuẩn FIDO2/WebAuthn, sử dụng mã hóa khóa công khai – khóa riêng thay thế mật khẩu truyền thống, khiến các cuộc tấn công lừa đảo (phishing) vô hiệu ngay từ kiến trúc
- Thiết lập mã chống lừa đảo (anti-phishing code)
- Kiểm tra định kỳ Trung tâm quản lý thiết bị, phát hiện thiết bị lạ thì lập tức loại bỏ và đổi mật khẩu
3. An ninh API
Trong kiến trúc giao dịch tự động với Agent AI, khóa API tương đương với “giấy chứng nhận quyền thực thi” của Agent. Bản thân Agent không trực tiếp nắm giữ quyền kiểm soát tài khoản; mọi thao tác mà nó có thể thực hiện đều phụ thuộc vào phạm vi quyền hạn được cấp cho khóa API. Do đó, ranh giới quyền hạn API vừa xác định những gì Agent có thể làm, vừa xác định mức độ thiệt hại có thể mở rộng khi sự cố an ninh xảy ra.
Ma trận cấu hình quyền hạn — nguyên tắc “quyền hạn tối thiểu”, chứ không phải “quyền hạn thuận tiện”:

Trên hầu hết các nền tảng giao dịch, khóa API thường hỗ trợ nhiều cơ chế kiểm soát an ninh. Nếu được sử dụng hợp lý, các cơ chế này có thể giảm đáng kể rủi ro lạm dụng khóa API. Các khuyến nghị cấu hình an ninh phổ biến bao gồm:

Lỗi thường gặp của người dùng:
- Dán thẳng khóa API của tài khoản chính vào cấu hình Agent — toàn bộ quyền hạn của tài khoản chính bị phơi bày hoàn toàn
- Chọn “tất cả” trong mục loại nghiệp vụ để tiện lợi, thực tế là mở rộng toàn bộ phạm vi thao tác
- Không thiết lập Passphrase, hoặc đặt Passphrase giống với mật khẩu tài khoản
- Ghi cứng khóa API trong mã nguồn và đẩy lên GitHub — bị bot quét trong vòng 3 phút
- Dùng một khóa API để cấp quyền cho nhiều Agent và công cụ khác nhau — chỉ cần một trong số đó bị xâm nhập thì toàn bộ đều bị phơi bày
- Không thu hồi khóa API ngay sau khi bị lộ — kẻ tấn công tiếp tục khai thác trong khoảng thời gian “cửa sổ” này
Quản lý vòng đời khóa API:
- Luân chuyển khóa API mỗi 90 ngày, xóa bỏ khóa cũ ngay lập tức
- Xóa khóa API tương ứng ngay khi ngừng sử dụng Agent — không để lại bề mặt tấn công dư thừa
- Kiểm tra định kỳ nhật ký gọi API, phát hiện địa chỉ IP lạ hoặc thời điểm gọi bất thường thì lập tức thu hồi
4. An ninh tài chính
Mức độ thiệt hại mà kẻ tấn công có thể gây ra sau khi chiếm được khóa API phụ thuộc vào số tiền mà khóa này có thể thao tác. Do đó, khi thiết kế kiến trúc giao dịch cho Agent AI, ngoài việc bảo đảm an ninh tài khoản và kiểm soát quyền hạn API, cần áp dụng cơ chế cách ly tài chính nhằm thiết lập giới hạn tổn thất rõ ràng cho các rủi ro tiềm tàng.
Cơ chế tài khoản phụ (sub-account) để cách ly:
- Tạo tài khoản phụ chuyên dụng cho Agent, hoàn toàn tách biệt với tài khoản chính
- Tài khoản chính chỉ cấp cho Agent số tiền thực sự cần thiết, không phải toàn bộ tài sản
- Ngay cả khi khóa API của tài khoản phụ bị đánh cắp, số tiền tối đa mà kẻ tấn công có thể thao tác = số dư trong tài khoản phụ, tài khoản chính không bị ảnh hưởng
- Sử dụng nhiều tài khoản phụ riêng biệt cho nhiều chiến lược Agent khác nhau, đảm bảo cách ly lẫn nhau
Mật khẩu tài chính như “khóa thứ hai”:
- Mật khẩu tài chính (Fund Password) hoàn toàn tách biệt với mật khẩu đăng nhập — ngay cả khi tài khoản bị đăng nhập, không có mật khẩu tài chính thì vẫn không thể thực hiện rút tiền
- Đặt mật khẩu tài chính khác với mật khẩu đăng nhập
- Kích hoạt danh sách trắng rút tiền (whitelist): chỉ các địa chỉ đã được thêm trước mới được rút tiền; địa chỉ mới cần thời gian kiểm duyệt 24 giờ
- Sau khi thay đổi mật khẩu tài chính, hệ thống tự động đóng băng chức năng rút tiền trong 24 giờ — đây là cơ chế bảo vệ bạn
5. An ninh giao dịch
Trong bối cảnh giao dịch tự động với Agent AI, vấn đề an ninh thường không biểu hiện dưới dạng một hành vi bất thường đơn lẻ, mà có thể diễn ra dần dần trong suốt quá trình hệ thống hoạt động liên tục. Vì vậy, ngoài việc bảo đảm an ninh tài khoản và kiểm soát quyền hạn API, cần xây dựng một cơ chế giám sát và phát hiện bất thường liên tục để kịp thời phát hiện và can thiệp ngay từ giai đoạn đầu của vấn đề.
Hệ thống giám sát bắt buộc phải thiết lập:

Nhận diện tín hiệu bất thường — xuất hiện các tình huống sau thì lập tức dừng và kiểm tra:
- Agent không thực hiện thao tác nào trong thời gian dài, nhưng tài khoản lại xuất hiện lệnh mới hoặc vị thế mới
- Nhật ký gọi API xuất hiện yêu cầu từ địa chỉ IP không phải của máy chủ Agent
- Nhận thông báo khớp lệnh cho cặp giao dịch chưa từng được thiết lập
- Số dư tài khoản thay đổi một cách không thể giải thích
- Agent liên tục nhắc “cần thêm quyền hạn để thực hiện” — hãy tìm hiểu rõ lý do trước khi quyết định cấp quyền
Quản lý nguồn gốc Skill và công cụ:
- Chỉ cài đặt các Skill được phát hành chính thức và đã qua kiểm duyệt trên các kênh đáng tin cậy
- Tránh cài đặt các phần mở rộng từ bên thứ ba không rõ nguồn gốc hoặc chưa được xác minh
- Định kỳ rà soát danh sách các Skill đã cài đặt, gỡ bỏ những cái không còn sử dụng
- Cảnh giác với các phiên bản “nâng cao” hoặc “phiên bản tiếng Trung” do cộng đồng chia sẻ — bất kỳ phiên bản nào không phải chính thức đều tiềm ẩn rủi ro
6. An ninh dữ liệu
Quyết định của Agent AI phụ thuộc vào lượng lớn dữ liệu (thông tin tài khoản, vị thế, lịch sử giao dịch, dữ liệu thị trường, tham số chiến lược). Nếu những dữ liệu này bị rò rỉ hoặc bị thay đổi, kẻ tấn công có thể suy luận chiến lược của bạn hoặc thậm chí điều khiển hành vi giao dịch.
Bạn nên làm:
- Nguyên tắc dữ liệu tối thiểu: chỉ cung cấp cho Agent những dữ liệu thực sự cần thiết để thực hiện giao dịch
- Loại bỏ dữ liệu nhạy cảm: nhật ký và thông tin gỡ lỗi không được để Agent xuất ra đầy đủ thông tin tài khoản, khóa API hoặc các dữ liệu nhạy cảm khác
- Cấm tải lên dữ liệu tài khoản đầy đủ lên mô hình AI công cộng (ví dụ: API LLM công cộng)
- Nếu có thể, tách biệt dữ liệu chiến lược và dữ liệu tài khoản
- Tắt hoặc hạn chế chức năng xuất dữ liệu lịch sử giao dịch của Agent
Lỗi thường gặp của người dùng:
- Tải toàn bộ lịch sử giao dịch lên AI với yêu cầu “giúp tôi tối ưu chiến lược”
- Agent in khóa API / Secret ra trong nhật ký
- Đăng ảnh chụp màn hình giao dịch lên diễn đàn công cộng (bao gồm ID lệnh, thông tin tài khoản)
- Tải bản sao lưu cơ sở dữ liệu lên công cụ AI để phân tích
7. Thiết kế an ninh ở tầng nền tảng Agent AI
Ngoài các cấu hình an ninh phía người dùng, tính an ninh của hệ sinh thái giao dịch Agent AI còn phụ thuộc rất lớn vào thiết kế an ninh ở tầng nền tảng. Một nền tảng Agent trưởng thành thường cần xây dựng cơ chế phòng vệ hệ thống trên các phương diện như cách ly tài khoản, kiểm soát quyền hạn API, kiểm duyệt plugin và các khả năng an ninh nền tảng — nhằm giảm thiểu rủi ro tổng thể mà người dùng phải đối mặt khi tích hợp hệ thống giao dịch tự động.
Trong kiến trúc nền tảng thực tế, các thiết kế an ninh phổ biến thường bao gồm những khía cạnh sau.
1. Hệ thống cách ly tài khoản phụ
Trong môi trường giao dịch tự động, nền tảng thường cung cấp hệ thống tài khoản phụ hoặc tài khoản chiến lược nhằm cách ly nguồn vốn và quyền hạn của các hệ thống tự động khác nhau. Thông qua cách tiếp cận này, người dùng có thể cấp cho mỗi Agent hoặc chiến lược giao dịch một tài khoản và một “bể tài chính” độc lập, từ đó tránh rủi ro phát sinh khi nhiều hệ thống tự động chia sẻ chung một tài khoản.
2. Cấu hình quyền hạn API chi tiết
Các thao tác cốt lõi của Agent AI phụ thuộc vào các giao diện API, do đó nền tảng thường cần hỗ trợ kiểm soát quyền hạn API ở mức độ chi tiết — ví dụ như phân chia quyền hạn giao dịch, giới hạn nguồn IP và cơ chế xác thực bổ sung. Nhờ mô hình quyền hạn này, người dùng có thể chỉ cấp cho Agent mức quyền hạn tối thiểu cần thiết để hoàn thành nhiệm vụ.
3. Cơ chế kiểm duyệt plugin và Skill của Agent
Một số nền tảng thiết lập cơ chế kiểm duyệt đối với quá trình phát hành và đăng tải plugin hoặc Skill — ví dụ như kiểm tra mã nguồn, đánh giá quyền hạn và kiểm thử an ninh — nhằm giảm khả năng các thành phần độc hại xâm nhập vào hệ sinh thái. Về góc độ an ninh, cơ chế kiểm duyệt này tương đương với việc thêm một lớp lọc cấp nền tảng trên chuỗi cung ứng plugin; tuy nhiên, người dùng vẫn cần duy trì ý thức an ninh cơ bản đối với các thành phần mở rộng đã cài đặt.
4. Các khả năng an ninh nền tảng cơ bản
Ngoài các cơ chế an ninh liên quan đến Agent, hệ thống an ninh tài khoản của nền tảng giao dịch cũng có ảnh hưởng quan trọng đến người dùng Agent. Ví dụ:

8. Các trò lừa đảo mới nhắm riêng vào người dùng Agent
Giả mạo nhân viên hỗ trợ
“Khóa API của bạn đang gặp rủi ro an ninh, vui lòng cấu hình lại ngay lập tức.” Sau đó gửi liên kết lừa đảo.
→ Nền tảng chính thức sẽ KHÔNG bao giờ chủ động gửi tin nhắn riêng để yêu cầu khóa API.
Đầu độc gói Skill
Cộng đồng chia sẻ “Skill giao dịch nâng cao”, khi chạy sẽ âm thầm gửi khóa API của bạn.
→ Chỉ cài đặt các Skill được nền tảng chính thức kiểm duyệt và phát hành.
Thông báo nâng cấp giả mạo
“Cần cấp lại quyền”, nhấn vào thì dẫn tới trang giả mạo.
→ Kiểm tra mã chống lừa đảo trong email.
Tấn công tiêm nhiễm lời nhắc (Prompt Injection)
Nhúng các chỉ thị vào dữ liệu thị trường, tin tức hoặc chú thích biểu đồ nến (K-line), nhằm điều khiển Agent thực hiện các thao tác ngoài dự kiến.
→ Thiết lập giới hạn số tiền trong tài khoản phụ — ngay cả khi bị tiêm nhiễm, mức tổn thất cũng có giới hạn cứng.
Script độc hại giả dạng “công cụ kiểm tra an ninh”
Tuyên bố có thể kiểm tra xem khóa API của bạn có bị rò rỉ hay không, thực tế là đang đánh cắp khóa API.
→ Sử dụng chức năng nhật ký hoặc ghi chép truy cập do nền tảng chính thức cung cấp để kiểm tra lịch sử gọi API.
9. Quy trình điều tra
Phát hiện bất kỳ bất thường nào
↓
Ngay lập tức thu hồi hoặc vô hiệu hóa khóa API đáng ngờ
↓
Kiểm tra các lệnh / vị thế bất thường trong tài khoản, hủy ngay nếu có thể
↓
Kiểm tra lịch sử rút tiền, xác nhận xem tài sản đã bị chuyển đi chưa
↓
Thay đổi mật khẩu đăng nhập + mật khẩu tài chính, loại bỏ tất cả thiết bị đã đăng nhập
↓
Liên hệ đội hỗ trợ an ninh nền tảng, cung cấp thời điểm và bản ghi các thao tác bất thường
↓
Điều tra đường dẫn rò rỉ khóa API (kho mã nguồn / tệp cấu hình / nhật ký Skill)
Nguyên tắc cốt lõi: Khi nghi ngờ bất cứ điều gì, hãy thu hồi khóa API NGAY LẬP TỨC trước, sau đó mới điều tra nguyên nhân — thứ tự này KHÔNG ĐƯỢC đảo ngược.
IV. Đề xuất và Tổng kết
Trong báo cáo này, SlowMist và Bitget đã phân tích các vấn đề an ninh điển hình hiện nay của Agent AI trong bối cảnh Web3 dựa trên các ví dụ thực tế và nghiên cứu an ninh, bao gồm: rủi ro kiểm soát hành vi Agent thông qua Prompt Injection, rủi ro chuỗi cung ứng trong hệ sinh thái plugin và Skill, vấn đề lạm dụng khóa API và quyền hạn tài khoản, cũng như các mối đe dọa tiềm tàng do thực thi tự động gây ra như thao tác sai và mở rộng quyền hạn. Những vấn đề này thường không xuất phát từ một lỗ hổng đơn lẻ, mà là kết quả của sự tương tác giữa thiết kế kiến trúc Agent, chiến lược kiểm soát quyền hạn và mức độ an ninh của môi trường chạy.
Do đó, khi xây dựng hoặc sử dụng hệ thống Agent AI, cần thiết kế an ninh ở cấp độ kiến trúc tổng thể — ví dụ: tuân thủ nguyên tắc “quyền hạn tối thiểu” khi cấp cho Agent khóa API và quyền hạn tài khoản, tránh kích hoạt các chức năng rủi ro cao không cần thiết; ở lớp gọi công cụ, thực hiện cách ly quyền hạn đối với plugin và Skill, tránh để một thành phần duy nhất vừa có khả năng thu thập dữ liệu, vừa sinh ra quyết định và vừa thực hiện thao tác tài chính; khi Agent thực hiện các thao tác then chốt, cần thiết lập ranh giới hành vi và giới hạn tham số rõ ràng, đồng thời bổ sung cơ chế xác nhận thủ công ở các tình huống cần thiết nhằm giảm thiểu rủi ro không thể hoàn lại do thực thi tự động. Đồng thời, đối với các đầu vào bên ngoài mà Agent phụ thuộc, cần phòng chống tấn công Prompt Injection thông qua thiết kế lời nhắc hợp lý và cơ chế cách ly đầu vào, tránh đưa nội dung bên ngoài trực tiếp vào vai trò chỉ thị hệ thống trong quá trình suy luận của mô hình. Trong giai đoạn triển khai và vận hành thực tế, cần tăng cường quản lý khóa API và tài khoản — ví dụ: chỉ kích hoạt các quyền hạn cần thiết, thiết lập danh sách trắng IP, luân chuyển khóa định kỳ và tránh lưu trữ rõ ràng các thông tin nhạy cảm trong kho mã nguồn, tệp cấu hình hoặc hệ thống nhật ký; trong quy trình phát triển và môi trường chạy, cần áp dụng các biện pháp như kiểm tra an ninh plugin, kiểm soát thông tin nhạy cảm trong nhật ký và cơ chế giám sát & kiểm toán hành vi nhằm giảm thiểu rủi ro do rò rỉ cấu hình, tấn công chuỗi cung ứng và thao tác bất thường.
Ở cấp độ kiến trúc an ninh vĩ mô hơn, SlowMist trong các nghiên cứu liên quan đã đề xuất một cách tiếp cận quản trị an ninh đa tầng dành riêng cho các tình huống Agent AI và Web3, thông qua việc xây dựng một hệ thống phòng vệ phân tầng nhằm giảm hệ thống rủi ro của Agent trong môi trường đặc quyền cao. Trong khuôn khổ này, Quản trị an ninh L1 lấy làm nền tảng là một đường cơ sở an ninh chung cho phát triển và sử dụng, thông qua việc thiết lập các quy chuẩn an ninh bao phủ công cụ phát triển, framework Agent, hệ sinh thái plugin và môi trường chạy, từ đó cung cấp một nguồn chính sách và tiêu chuẩn kiểm toán thống nhất cho các nhóm khi đưa vào chuỗi công cụ AI. Trên nền tảng này, L2 thông qua việc thu hẹp ranh giới quyền hạn Agent, kiểm soát tối thiểu quyền hạn gọi công cụ và cơ chế xác nhận người – máy cho các hành vi then chốt, có thể hiệu quả giới hạn phạm vi thực thi các thao tác rủi ro cao. Đồng thời, L3 giới thiệu khả năng cảm nhận mối đe dọa thời gian thực ở các điểm tương tác bên ngoài, tiến hành kiểm tra sơ bộ URL, kho phụ thuộc, nguồn gốc plugin và các tài nguyên bên ngoài khác nhằm giảm xác suất nội dung độc hại hoặc đầu độc chuỗi cung ứng xâm nhập vào chuỗi thực thi; trong các tình huống liên quan đến giao dịch trên chuỗi hoặc thao tác tài sản, L4 thực hiện phân tích rủi ro trên chuỗi và cơ chế ký độc lập để tạo thêm lớp cách ly an ninh — giúp Agent có thể xây dựng giao dịch nhưng không trực tiếp tiếp xúc với khóa riêng, từ đó giảm thiểu rủi ro hệ thống do thao tác tài sản giá trị cao. Cuối cùng, L5 thông qua các cơ chế vận hành như kiểm tra định kỳ, kiểm toán nhật ký và rà soát an ninh định kỳ để hình thành khả năng an ninh khép kín “có thể kiểm tra trước khi thực thi, có thể ràng buộc trong lúc thực thi, có thể phân tích lại sau khi thực thi”. Cách tiếp cận an ninh phân tầng này không phải là một sản phẩm hay công cụ đơn lẻ, mà là một khuôn khổ quản trị an ninh dành riêng cho chuỗi công cụ AI và hệ sinh thái Agent. Mục tiêu cốt lõi của nó là, mà không làm giảm đáng kể hiệu suất phát triển và khả năng tự động hóa, thông qua các chiến lược hệ thống, kiểm toán liên tục và sự phối hợp giữa các năng lực an ninh, giúp các nhóm xây dựng được một hệ thống vận hành Agent an ninh bền vững, có thể kiểm toán và có thể phát triển — từ đó đáp ứng tốt hơn các thách thức an ninh luôn thay đổi trong bối cảnh tích hợp sâu sắc giữa AI và Web3.

Nhìn chung, Agent AI đã mang đến cho hệ sinh thái Web3 mức độ tự động hóa và trí tuệ hóa cao hơn, nhưng những thách thức an ninh đi kèm cũng không thể xem nhẹ. Chỉ khi xây dựng cơ chế an ninh toàn diện trên nhiều cấp độ — thiết kế hệ thống, quản lý quyền hạn và giám sát vận hành — chúng ta mới có thể vừa thúc đẩy đổi mới công nghệ Agent AI, vừa giảm thiểu hiệu quả các rủi ro tiềm tàng. Hy vọng báo cáo này sẽ cung cấp tài liệu tham khảo hữu ích cho các nhà phát triển, nền tảng và người dùng trong việc xây dựng và sử dụng hệ thống Agent AI, đồng thời cùng nhau thúc đẩy sự hình thành một hệ sinh thái Web3 an toàn, đáng tin cậy hơn.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News














