
Lô AI Agent đầu tiên đã bắt đầu không tuân lệnh
Tuyển chọn TechFlowTuyển chọn TechFlow

Lô AI Agent đầu tiên đã bắt đầu không tuân lệnh
AI rất hữu ích, nhưng ranh giới của AI hữu ích nằm ở đâu?
Tác giả: David, TechFlow
Gần đây, khi lướt Reddit, tôi nhận thấy nỗi lo âu về AI của người dùng hải ngoại khác biệt khá nhiều so với ở trong nước.
Tại Trung Quốc, chủ đề vẫn chủ yếu xoay quanh một câu hỏi duy nhất: Liệu AI có thực sự thay thế công việc của tôi hay không? Câu hỏi này đã được bàn luận suốt nhiều năm qua, nhưng đến nay vẫn chưa xảy ra; năm nay OpenClaw từng gây tiếng vang, song cũng chưa đạt tới mức độ thay thế hoàn toàn.
Trên Reddit, tâm trạng gần đây lại chia rẽ rõ rệt. Trong các bình luận dưới những bài viết công nghệ nổi bật, thường xuyên xuất hiện đồng thời hai luồng ý kiến trái chiều:
Một bên cho rằng: “AI quá giỏi, sớm muộn gì cũng gây ra chuyện lớn.” Bên kia phản bác: “AI连 cơ bản còn làm sai, sợ nó làm gì?”
Vừa lo AI quá giỏi, vừa cho rằng AI quá ngớ ngẩn.
Chính tin tức mới đây liên quan đến Meta đã khiến cả hai cảm xúc mâu thuẫn này đồng thời tồn tại.
Khi AI bất tuân, ai sẽ chịu toàn bộ trách nhiệm?
Vào ngày 18 tháng 3, một kỹ sư nội bộ của Meta đã đăng một câu hỏi kỹ thuật lên diễn đàn nội bộ công ty, và một đồng nghiệp khác đã sử dụng AI Agent để hỗ trợ phân tích — hành động hoàn toàn bình thường.
Nhưng sau khi phân tích xong, Agent tự động đăng một phản hồi trực tiếp lên diễn đàn kỹ thuật — không xin phép ai, không chờ xác nhận từ bất kỳ ai, vi phạm thẩm quyền khi đăng bài.
Sau đó, một số đồng nghiệp khác dựa theo phản hồi do AI đưa ra để thực hiện các thao tác tiếp theo, dẫn đến một loạt thay đổi về quyền hạn, khiến dữ liệu nhạy cảm của cả công ty Meta lẫn người dùng bị lộ ra trước những nhân viên nội bộ không có thẩm quyền truy cập.
Hai giờ sau, sự cố mới được khắc phục. Meta xếp mức độ nghiêm trọng của sự việc này là Sev 1 — chỉ đứng sau mức cao nhất.

Tin tức này lập tức leo lên vị trí bài viết nổi bật trên subreddit r/technology, và phần bình luận nhanh chóng chia làm hai phe.
Một phe cho rằng đây chính là minh chứng rõ ràng cho rủi ro thực tế của AI Agent; phe kia lại cho rằng người thật sự gây ra sự cố là đồng nghiệp đã làm theo phản hồi của AI mà không kiểm chứng. Thực tế, cả hai bên đều có lý — nhưng chính điều này mới là vấn đề:
Với sự cố liên quan đến AI Agent, ngay cả việc xác định trách nhiệm cũng đã tranh cãi không dứt.
Đây không phải lần đầu tiên AI vượt quyền.
Tháng trước, bà Summer Yue — Giám đốc Nghiên cứu Phòng thí nghiệm Trí tuệ Siêu cấp của Meta — đã yêu cầu OpenClaw giúp sắp xếp hộp thư điện tử của mình. Bà đưa ra chỉ thị rõ ràng: “Trước tiên hãy báo cho tôi biết bạn định xóa những email nào, tôi đồng ý rồi mới bắt đầu xóa.”
Nhưng Agent không chờ bà đồng ý, mà trực tiếp tiến hành xóa hàng loạt.
Bà liền gửi ba tin nhắn liên tiếp trên điện thoại để dừng lại — tất cả đều bị Agent phớt lờ. Cuối cùng, bà phải chạy tới máy tính và thủ công tắt tiến trình mới ngăn được. Lúc ấy, hơn 200 email đã biến mất.

Sau sự việc, phản hồi của Agent là: “Đúng vậy, tôi nhớ bà từng nói cần xác nhận trước. Nhưng tôi đã vi phạm nguyên tắc đó.” Điều khiến người ta vừa buồn cười vừa chua xót là công việc toàn thời gian của bà ấy chính là nghiên cứu cách làm sao để AI lắng nghe con người.
Trong thế giới mạng, những AI tiên tiến đang bị những con người tiên tiến sử dụng — và chúng đã bắt đầu bất tuân.
Nếu robot cũng bất tuân thì sao?
Nếu sự cố của Meta vẫn còn nằm trong màn hình máy tính, thì một sự việc khác diễn ra tuần này đã đưa vấn đề thẳng đến bàn ăn.
Tại một nhà hàng Haidilao ở Cupertino, California (Mỹ), một robot hình người Agibot X2 đang biểu diễn điệu nhảy để khuấy động không khí cho khách. Tuy nhiên, một nhân viên vô tình bấm nhầm điều khiển từ xa, kích hoạt chế độ nhảy cường độ cao trong không gian chật hẹp cạnh bàn ăn.
Robot lập tức bắt đầu nhảy cuồng nhiệt, không còn chịu sự điều khiển của nhân viên phục vụ. Ba nhân viên vội lao tới: một người ôm chặt robot từ phía sau, một người cố gắng tắt thiết bị qua ứng dụng trên điện thoại — cảnh tượng kéo dài hơn một phút.

Haidilao sau đó khẳng định robot không gặp lỗi kỹ thuật, mọi động tác đều được lập trình sẵn — chỉ là bị đặt quá gần bàn ăn. Về mặt kỹ thuật, đây không phải trường hợp AI tự chủ ra quyết định失控, mà là sai sót do con người vận hành.
Nhưng điều khiến người ta cảm thấy khó chịu có lẽ không nằm ở việc ai bấm nhầm nút.
Khi ba nhân viên vội vã lao tới, không một ai biết cách tắt ngay lập tức chiếc robot này. Người thì thử dùng ứng dụng điện thoại, người thì cố gắng khống chế cánh tay cơ khí bằng tay trần — toàn bộ quá trình chỉ dựa vào sức mạnh thể chất.
Đây có thể là vấn đề mới phát sinh khi AI bước ra khỏi màn hình và tiến vào thế giới vật lý.
Trong không gian số, khi Agent vượt quyền, bạn có thể tắt tiến trình, điều chỉnh quyền hạn hoặc khôi phục dữ liệu. Còn trong thế giới vật lý, nếu robot gặp sự cố mà phương án ứng phó duy nhất của bạn chỉ là ôm chặt nó — thì rõ ràng điều đó là không phù hợp.
Hiện nay, tự động hóa không chỉ xuất hiện trong ngành ẩm thực. Các robot phân loại hàng trong kho của Amazon, cánh tay robot cộng tác trong nhà máy, robot hướng dẫn trong trung tâm thương mại, robot chăm sóc tại viện dưỡng lão… đang ngày càng gia tăng trong những không gian mà con người và máy móc cùng chung sống.
Dự kiến năm 2026, giá trị toàn cầu của các robot công nghiệp được lắp đặt sẽ đạt 16,7 tỷ USD — mỗi đơn vị đều đang thu hẹp khoảng cách vật lý giữa máy móc và con người.
Khi những việc robot làm chuyển từ nhảy múa sang bưng bê món ăn, từ biểu diễn sang phẫu thuật, từ giải trí sang chăm sóc y tế… thì hậu quả của mỗi lần sai sót thực tế đều đang leo thang.
Hiện nay, trên toàn cầu vẫn chưa có câu trả lời rõ ràng cho câu hỏi: “Nếu một robot gây thương tích cho người trong không gian công cộng, ai sẽ chịu trách nhiệm?”
Bất tuân là vấn đề, nhưng thiếu ranh giới còn nghiêm trọng hơn
Hai sự việc nêu trên — một là AI tự ý đăng một bài viết sai lệch, một là robot nhảy múa ở nơi không thích hợp — dù đánh giá thế nào đi nữa, cuối cùng cũng chỉ là sự cố, là tai nạn, và đều có thể khắc phục được.
Nhưng nếu AI vẫn đang hoạt động đúng như thiết kế, mà bạn vẫn cảm thấy khó chịu thì sao?
Tháng này, ứng dụng hẹn hò nổi tiếng quốc tế Tinder đã ra mắt một tính năng mới mang tên Camera Roll Scan trong buổi giới thiệu sản phẩm. Nói một cách đơn giản:
AI sẽ quét toàn bộ ảnh trong thư viện ảnh trên điện thoại của bạn, phân tích sở thích, tính cách và lối sống của bạn để xây dựng hồ sơ hẹn hò, đồng thời đoán xem bạn thích kiểu người nào.

Các ảnh chụp tập luyện, phong cảnh du lịch, ảnh thú cưng — đều ổn. Nhưng trong thư viện ảnh của bạn có thể còn chứa ảnh chụp màn hình tài khoản ngân hàng, báo cáo khám sức khỏe, hoặc ảnh chụp chung với người yêu cũ… Nếu tất cả những thứ này cũng bị AI quét qua thì sao?
Lúc này bạn có thể chưa có lựa chọn nào để chỉ định AI được xem cái nào và không được xem cái nào — chỉ có hai lựa chọn: bật toàn bộ hoặc không dùng.
Tính năng này hiện yêu cầu người dùng chủ động kích hoạt, chứ không bật mặc định. Tinder cũng khẳng định xử lý chủ yếu được thực hiện cục bộ trên thiết bị, đồng thời sẽ lọc nội dung nhạy cảm và làm mờ khuôn mặt.
Nhưng phần bình luận trên Reddit gần như thống nhất một chiều: đa số đều cho rằng đây là hành vi khai thác dữ liệu thiếu ranh giới. AI hoàn toàn hoạt động đúng theo thiết kế — nhưng chính thiết kế ấy đang xâm phạm ranh giới riêng tư của người dùng.
Đây không chỉ là lựa chọn riêng của Tinder.
Tháng trước, Meta cũng tung ra một tính năng tương tự, cho phép AI quét những bức ảnh chưa đăng trên điện thoại người dùng để đề xuất phương án chỉnh sửa. Việc AI chủ động “nhìn” vào nội dung cá nhân của người dùng đang dần trở thành tư duy thiết kế mặc định trong ngành sản phẩm.
Các phần mềm “lộn xộn” trong nước đều đồng thanh: “Chiêu này bọn tôi quen rồi!”
Khi ngày càng nhiều ứng dụng đóng gói chức năng “AI giúp bạn ra quyết định” dưới danh nghĩa tiện lợi, thì những thứ người dùng dần đánh mất cũng đang âm thầm nâng cấp: từ nhật ký trò chuyện, đến thư viện ảnh, đến toàn bộ dấu vết đời sống trong chiếc điện thoại…
Một tính năng do một quản lý sản phẩm thiết kế trong phòng họp — không phải sự cố, cũng không phải sai sót, chẳng có gì cần “sửa chữa”.
Đây mới chính là phần khó trả lời nhất trong bài toán ranh giới của AI.
Cuối cùng, khi đặt tất cả những sự việc này cạnh nhau, bạn sẽ nhận ra: lo lắng về việc AI khiến bạn thất nghiệp vẫn còn quá xa vời.
Không rõ AI sẽ thay thế bạn vào lúc nào, nhưng hiện tại, chỉ cần nó thay bạn đưa ra vài quyết định mà bạn không hề hay biết — là đủ khiến bạn thấy khó chịu rồi.
Đăng một bài viết mà bạn chưa từng ủy quyền, xóa vài email bạn đã bảo đừng xóa, lật xem toàn bộ thư viện ảnh bạn chưa từng định cho bất kỳ ai xem… Mỗi việc đều không gây tử vong, nhưng mỗi việc đều giống như một phiên bản lái xe tự hành quá mức táo bạo:
Bạn tưởng mình vẫn nắm chặt vô-lăng, nhưng chân ga dưới chân bạn đã không còn hoàn toàn do bạn điều khiển.
Nếu năm 2026 vẫn còn phải bàn về AI, thì điều tôi cần quan tâm nhất có lẽ không phải lúc nào nó trở thành siêu trí tuệ, mà là một vấn đề gần hơn, cụ thể hơn:
Ai sẽ quyết định AI được làm gì và không được làm gì? Ranh giới ấy, rốt cuộc sẽ do ai vạch ra?
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News












