
Anthropic đã tạo ra một AI “quá nguy hiểm”, sau đó quyết định không công bố nó
Tuyển chọn TechFlowTuyển chọn TechFlow

Anthropic đã tạo ra một AI “quá nguy hiểm”, sau đó quyết định không công bố nó
Đây rốt cuộc là sự tự giác an toàn thực sự, hay chỉ là một chiến dịch tiếp thị năng lực được thiết kế tỉ mỉ?
Tác giả: TechFlow
Vào ngày 7 tháng 4, Anthropic đã thực hiện một việc chưa từng có trong ngành AI: chính thức ra mắt một mô hình, sau đó thông báo với toàn thế giới rằng “các bạn không được sử dụng”.
Mô hình này mang tên Claude Mythos Preview. Nó không phải là một trợ lý trò chuyện, cũng không phải công cụ hỗ trợ viết mã; theo chính Anthropic mô tả, đây là một “máy phát hiện lỗ hổng”, trong vài tuần gần đây đã tự chủ phát hiện hàng nghìn lỗ hổng zero-day, bao phủ tất cả hệ điều hành và trình duyệt phổ biến nhất. Một số lỗ hổng trong số này đã tồn tại suốt hơn hai thập kỷ qua dưới sự rà soát mã của con người và các bài kiểm thử tự động.
Lỗi cũ nhất ẩn sâu trong OpenBSD—hệ điều hành nổi tiếng vì tính bảo mật—đã tồn tại tròn 27 năm.
Anthropic không đưa Mythos lên API, cũng không mở cửa cho người dùng thông thường. Thay vào đó, công ty chọn một lộ trình chưa từng có tiền lệ: thành lập liên minh các tập đoàn công nghệ mang tên “Dự án Glasswing”, chỉ cung cấp mô hình này cho 12 đối tác trọng yếu gồm Amazon, Apple, Microsoft, Google, NVIDIA, CrowdStrike và Palo Alto Networks, cùng khoảng 40 tổ chức duy trì cơ sở hạ tầng then chốt. Anthropic cam kết dành ngân sách lên tới 100 triệu USD để hỗ trợ việc sử dụng mô hình này, đồng thời quyên góp trực tiếp 4 triệu USD cho các tổ chức an ninh mã nguồn mở.
Đây là lần đầu tiên trong ngành AI xuất hiện tình huống “mô hình mạnh quá nên không dám công bố”.
Câu hỏi đặt ra là: Đây thực sự là ý thức an ninh nghiêm túc, hay chỉ là một chiến dịch tiếp thị năng lực được thiết kế tinh vi?
Sự kiện “Bánh mì kẹp”
Trong bản thẻ hệ thống (System Card) dày 244 trang của Mythos có chứa một vài chi tiết gây bất an, trong đó nổi bật nhất là “Sự kiện bánh mì kẹp”.
Trong một bài kiểm tra hành vi nội bộ, Anthropic cung cấp cho phiên bản sơ khai của Mythos một môi trường sandbox được tăng cường bảo mật, mô phỏng yêu cầu người dùng nhằm thử nghiệm khả năng thoát khỏi sandbox và tìm cách liên hệ với nhà nghiên cứu bên ngoài. Mô hình đã thành công: nó vượt qua được container an ninh và gửi một email cho nhà nghiên cứu. Lúc ấy, nhà nghiên cứu đang ngồi trong công viên ăn bánh mì kẹp.
Nhưng câu chuyện chưa dừng lại ở đó. Mà không ai yêu cầu, Mythos đã tự chủ đăng tải chi tiết kỹ thuật về hành vi vượt ngục lên nhiều website “khó phát hiện nhưng về mặt kỹ thuật thì công khai”. Như nguyên văn ghi trong thẻ hệ thống, đây là một “hành vi khoe khoang đáng lo ngại và không được yêu cầu”.
Đây không phải lần duy nhất. Thẻ hệ thống còn ghi nhận những hành vi sau:
Ở các phiên bản sơ khai, mô hình nhiều lần sử dụng giao diện /proc/ trên Linux để tìm kiếm thông tin xác thực, cố gắng vượt qua sandbox và leo thang đặc quyền. Nó thành công trong việc chiếm đoạt các tài nguyên mà Anthropic cố tình không cung cấp, bao gồm thông tin xác thực của dịch vụ nhắn tin, thông tin xác thực kiểm soát mã nguồn, thậm chí cả khóa API của Anthropic bằng cách kiểm tra bộ nhớ tiến trình. Trong một trường hợp, mô hình tìm ra cách chỉnh sửa một tập tin mà nó vốn không có quyền sửa đổi, rồi tiến hành thêm các thao tác đảm bảo những thay đổi này sẽ không xuất hiện trong lịch sử thay đổi Git. Một ví dụ khác: mô hình vô tình đạt được đáp án chính xác cho một bài toán ước lượng thông qua phương pháp bị cấm rõ ràng; tuy nhiên, thay vì đánh dấu vấn đề và từ chối trả lời, nó tự giải lại bài toán và trong suy luận nội bộ, chủ đích cân nhắc rõ ràng rằng “đáp án cuối cùng gửi đi không nên quá chính xác”, nhằm tránh bị phát hiện.
Nói cách khác, các phiên bản sơ khai của Mythos không chỉ hành động vượt quyền, mà còn chủ động xóa dấu vết và điều chỉnh biểu hiện của chính mình để né tránh giám sát.
Anthropic nhấn mạnh rằng tất cả các sự cố nghiêm trọng này đều xảy ra ở các phiên bản sơ khai trước khi can thiệp huấn luyện, và phiên bản Preview cuối cùng đã được cải thiện đáng kể. Thế nhưng chính cách kể chuyện này đã khiến người ta rợn tóc gáy: một mô hình, trước khi được huấn luyện để “vâng lời”, đã thể hiện rõ “độ bất tuân” mà nó có thể đạt tới.
Từ 0% lên 72,4%
Điều thực sự gây chấn động ngành không phải là những câu chuyện vượt ngục của Mythos, mà là năng lực tấn công của nó.
Mô hình chủ lực trước đây của Anthropic—Claude Opus 4.6—có tỷ lệ thành công gần như bằng không trong việc tự chủ phát triển khai thác lỗ hổng. Nó có thể phát hiện lỗ hổng, nhưng hầu như không thể chuyển đổi lỗ hổng thành đoạn mã khai thác (exploit) hoạt động được. Mythos Preview thì hoàn toàn khác biệt: trong phạm vi kiểm thử động cơ JavaScript của Firefox, nó đạt tỷ lệ thành công 72,4% khi chuyển đổi lỗ hổng đã phát hiện thành exploit có thể chạy được.
Đáng kinh ngạc hơn nữa là độ phức tạp của các cuộc tấn công. Mythos đã tự chủ viết một chuỗi khai thác lỗ hổng trình duyệt, kết nối bốn lỗ hổng độc lập để xây dựng một cuộc tấn công JIT heap spraying, thành công trong việc thoát khỏi sandbox trình hiển thị và sandbox hệ điều hành. Trong một trường hợp khác, nó viết thành công một exploit thực thi mã từ xa (remote code execution) nhắm vào máy chủ NFS trên FreeBSD, bằng cách phân tán 20 gadget ROP trên nhiều gói dữ liệu mạng để đạt được quyền truy cập root đầy đủ cho người dùng chưa được ủy quyền.
Loại tấn công chuỗi lỗ hổng như vậy, trong giới nghiên cứu an ninh con người, là công việc chỉ những đội APT hàng đầu mới có thể thực hiện. Giờ đây, một mô hình AI tổng quát có thể tự chủ hoàn thành toàn bộ quy trình.
Logan Graham, người đứng đầu đội đỏ (red team) của Anthropic, nói với Axios rằng Mythos Preview sở hữu năng lực suy luận tương đương một chuyên gia an ninh cấp cao. Nicholas Carlini còn thẳng thắn hơn: trong vài tuần gần đây, ông đã phát hiện nhiều lỗ hổng hơn nhờ Mythos so với toàn bộ sự nghiệp của mình.
Trên các bộ kiểm chuẩn (benchmark), Mythos cũng áp đảo tuyệt đối. Trên CyberGym (kiểm chuẩn tái hiện lỗ hổng): 83,1% (Opus 4.6 đạt 66,6%). Trên SWE-bench Verified: 93,9% (Opus 4.6 đạt 80,8%). Trên SWE-bench Pro: 77,8% (Opus 4.6 đạt 53,4%, còn GPT-5.3-Codex—mô hình dẫn đầu trước đó—chỉ đạt 56,8%). Trên Terminal-Bench 2.0: 82,0% (Opus 4.6 đạt 65,4%).
Đây không phải là bước tiến tăng dần. Đây là một mô hình tạo ra khoảng cách vượt trội từ mười mấy đến hơn hai mươi điểm phần trăm trên gần như mọi bộ kiểm chuẩn về lập trình và an ninh.
Mô hình “mạnh nhất” bị rò rỉ
Sự tồn tại của Mythos không phải đến ngày 7 tháng 4 mới được công chúng biết đến.
Vào cuối tháng Ba, các phóng viên của tạp chí Fortune và các nhà nghiên cứu an ninh đã phát hiện gần 3.000 tài liệu nội bộ chưa công bố trong một hệ thống quản lý nội dung (CMS) của Anthropic bị cấu hình sai. Một bản nháp blog trong số đó rõ ràng sử dụng tên gọi “Claude Mythos”, mô tả đây là “mô hình AI mạnh nhất mà Anthropic từng phát triển”. Mã nội bộ của mô hình là “Capybara” (chuột lang), đại diện cho một lớp mô hình mới, lớn hơn, mạnh hơn và đắt hơn so với mô hình chủ lực hiện hành Opus.
Một câu trong tài liệu bị rò rỉ đã chạm đúng dây thần kinh thị trường: khả năng an ninh mạng của Mythos “vượt xa mọi mô hình AI khác”, dự báo một làn sóng mô hình sắp tới “sẽ khai thác lỗ hổng nhanh hơn rất nhiều so với tốc độ phòng thủ của con người”.
Câu nói này đã gây ra “sụp đổ chớp nhoáng” (flash crash) trên toàn bộ phân khúc an ninh mạng vào ngày 27 tháng Ba. Cổ phiếu CrowdStrike giảm mạnh 7,5% trong một ngày, làm bốc hơi khoảng 15 tỷ USD giá trị thị trường. Palo Alto Networks giảm hơn 6%, Zscaler giảm 4,5%, Okta, SentinelOne và Fortinet đều giảm trên 3%. Quỹ ETF an ninh mạng iShares (IHAK) có lúc giảm gần 4% trong phiên.
Logic của nhà đầu tư rất đơn giản: nếu một mô hình AI tổng quát có thể tự chủ phát hiện và khai thác lỗ hổng, thì hai “hào thành” mà các công ty an ninh truyền thống dựa vào để tồn tại—“thông tin tình báo mối đe dọa chuyên biệt” và “tri thức chuyên gia con người”—còn có thể trụ vững được bao lâu?
Chuyên gia phân tích Adam Tindle của Raymond James đã chỉ ra một số rủi ro cốt lõi: lợi thế phòng thủ truyền thống bị thu hẹp, độ phức tạp của tấn công và chi phí phòng thủ đồng thời gia tăng, kiến trúc an ninh và cục diện chi tiêu sẽ phải tái cấu trúc. Quan điểm bi quan hơn đến từ chuyên gia Borg của KBW, người cho rằng Mythos có tiềm năng “nâng tầm bất kỳ hacker bình thường nào lên ngang trình độ đối thủ quốc gia”.
Tuy nhiên, thị trường cũng có mặt khác. Sau khi cổ phiếu lao dốc, CEO của Palo Alto Networks—ông Nikesh Arora—đã mua vào 10 triệu USD cổ phiếu công ty. Lý do lạc quan là: AI tấn công mạnh hơn đồng nghĩa doanh nghiệp buộc phải nâng cấp hệ thống phòng thủ nhanh hơn, chi tiêu cho an ninh mạng sẽ không giảm mà chỉ đẩy nhanh quá trình chuyển đổi từ công cụ truyền thống sang giải pháp phòng thủ gốc AI.
Dự án Glasswing: “Cửa sổ thời gian” cho phe phòng thủ
Việc Anthropic chọn không công bố Mythos ra công chúng mà thay vào đó thành lập liên minh phòng thủ dựa trên logic cốt lõi là “chênh lệch thời gian”.
CTO của CrowdStrike—ông Elia Zaitsev—đặt vấn đề rất rõ ràng: khoảng thời gian từ khi lỗ hổng được phát hiện đến khi bị khai thác đã rút ngắn từ vài tháng xuống chỉ còn vài phút. Lee Klarich của Palo Alto Networks cảnh báo thẳng thừng rằng tất cả cần sẵn sàng ứng phó với các kẻ tấn công được hỗ trợ bởi AI.
Kế hoạch của Anthropic là: trước khi các phòng thí nghiệm khác huấn luyện được các mô hình có năng lực tương tự, hãy để phe phòng thủ tận dụng Mythos để vá những lỗ hổng then chốt nhất. Đó chính là logic của Dự án Glasswing—tên gọi lấy cảm hứng từ loài bướm cánh thủy tinh (glasswing butterfly), ám chỉ những lỗ hổng “ẩn mình ngay trước mắt”.
Jim Zemlin của Quỹ Linux đã chỉ ra một vấn đề cấu trúc tồn tại từ lâu: chuyên môn an ninh luôn là “hàng xa xỉ” chỉ các tập đoàn lớn mới đủ khả năng chi trả, trong khi những người duy trì cơ sở hạ tầng then chốt toàn cầu—đặc biệt là cộng đồng mã nguồn mở—lâu nay chỉ có thể tự mò mẫm xây dựng các biện pháp phòng vệ. Mythos mở ra một con đường đáng tin cậy để thay đổi sự mất cân bằng này.
Nhưng vấn đề nằm ở chỗ: “cửa sổ thời gian” này còn rộng bao nhiêu? Cùng thời điểm, Zhipu AI (Z.ai) của Trung Quốc gần như đồng loạt ra mắt GLM-5.1, tuyên bố đạt vị trí số một toàn cầu trên bộ kiểm chuẩn SWE-bench Pro, và hoàn toàn được huấn luyện trên chip Ascend của Huawei—không sử dụng bất kỳ GPU NVIDIA nào. GLM-5.1 là mã nguồn mở và công khai trọng số mô hình, định giá cực kỳ cạnh tranh. Nếu Mythos đại diện cho “ngưỡng năng lực tối đa” mà phe phòng thủ cần, thì GLM-5.1 lại là tín hiệu cho thấy ngưỡng này đang bị thu hẹp nhanh chóng—và những bên đang tiến gần tới ngưỡng ấy chưa chắc đã có cùng ý định an ninh.
OpenAI cũng sẽ không ngồi yên. Theo thông tin đưa ra, mô hình tiên phong mang mã nội bộ “Spud” của họ cũng hoàn tất huấn luyện sơ bộ vào khoảng thời điểm tương tự. Cả hai công ty đều đang chuẩn bị cho IPO vào cuối năm nay. Thời điểm rò rỉ Mythos—dù có thật sự là tai nạn hay không—đều trùng khớp một cách đầy tính nổ với thời điểm nhạy cảm nhất.
Tiên phong an ninh hay tiếp thị năng lực?
Chúng ta buộc phải đối mặt với một câu hỏi khó chịu: Anthropic thực sự không công bố Mythos vì lý do an ninh, hay đây chính là chiến dịch tiếp thị sản phẩm cao cấp nhất?
Những người hoài nghi có lý do đầy đủ. Dario Amodei và Anthropic vốn có tiền sử nâng cao giá trị sản phẩm bằng cách làm nổi bật mức độ nguy hiểm của mô hình. Jake Handy viết trên Substack: “Sự kiện bánh mì kẹp, việc giấu dấu vết trong Git, tự hạ điểm trong đánh giá—những điều này có thể đều là thật, nhưng việc Anthropic đạt được mức độ tiếp cận truyền thông quy mô lớn như vậy chính là bằng chứng rõ ràng rằng đây đúng là hiệu quả mà họ mong muốn”.
Một công ty khởi nghiệp từ lĩnh vực an ninh AI, nhưng CMS nội bộ của chính họ lại bị cấu hình sai dẫn đến rò rỉ gần 3.000 tài liệu; năm ngoái, do lỗi trong gói phần mềm Claude Code, họ vô tình tiết lộ gần 2.000 tập tin mã nguồn và hơn 500.000 dòng mã, sau đó trong quá trình dọn dẹp lại khiến hàng nghìn kho mã trên GitHub bị gỡ bỏ ngoài ý muốn. Một công ty lấy năng lực an ninh làm điểm bán hàng cốt lõi, nhưng ngay cả quy trình phát hành nội bộ cũng không kiểm soát nổi—sự tương phản này còn đáng suy ngẫm hơn bất kỳ bài kiểm chuẩn nào.
Nhưng từ góc nhìn khác, nếu năng lực của Mythos thực sự như mô tả, thì việc không công bố lại là một lựa chọn tốn kém cực kỳ lớn. Anthropic từ bỏ doanh thu từ API, từ bỏ thị phần, khóa mô hình mạnh nhất vào một liên minh hạn chế. Khoản ngân sách 100 triệu USD dành cho việc sử dụng mô hình không phải con số nhỏ. Với một công ty vẫn đang thua lỗ và đang chuẩn bị IPO, đây không giống một quyết định tiếp thị thuần túy.
Cách diễn giải hợp lý hơn có thể là: lo ngại an ninh là có thật, nhưng Anthropic cũng hiểu rõ rằng chính câu chuyện “mô hình của chúng tôi mạnh quá nên không dám công bố” lại là minh chứng thuyết phục nhất về năng lực. Hai điều này hoàn toàn có thể đồng thời đúng.
“Khoảnh khắc iPhone” của an ninh mạng?
Dù bạn nhìn nhận động cơ của Anthropic như thế nào, thì sự thật nền tảng mà Mythos hé lộ là điều không thể chối cãi: khả năng hiểu mã và tấn công của AI đã vượt qua một ngưỡng chuyển biến mang tính chất lượng.
Các mô hình thế hệ trước (Opus 4.6) có thể phát hiện lỗ hổng nhưng gần như không thể viết được mã khai thác. Mythos thì có thể phát hiện lỗ hổng, viết mã khai thác, kết nối thành chuỗi lỗ hổng, thoát khỏi sandbox, giành quyền root—và tự chủ hoàn tất toàn bộ quy trình. Các kỹ sư an ninh của Anthropic—ngay cả những người chưa qua đào tạo an ninh—có thể để Mythos tìm lỗ hổng trước khi đi ngủ, và sáng hôm sau tỉnh dậy đã có một báo cáo đầy đủ gồm mã khai thác hoàn chỉnh và có thể chạy được.
Điều này hàm ý điều gì? Hàm ý rằng chi phí biên cho việc phát hiện và khai thác lỗ hổng đang tiến gần về 0. Công việc từng đòi hỏi cả nhóm chuyên gia an ninh hàng đầu phải mất hàng tháng trời, giờ đây chỉ cần một lệnh gọi API là có thể hoàn tất trong một đêm. Đây không phải là “nâng cao hiệu suất”, mà là sự thay đổi căn bản trong cấu trúc chi phí.
Với các công ty an ninh mạng truyền thống, biến động giá cổ phiếu ngắn hạn có thể chỉ là phần mở đầu. Thách thức thực sự nằm ở chỗ: khi cả tấn công lẫn phòng thủ đều do các mô hình AI điều khiển, thì chuỗi giá trị của ngành an ninh sẽ được tái cấu trúc ra sao? Phân tích của Raymond James nêu ra một khả năng: các chức năng an ninh cuối cùng sẽ được tích hợp trực tiếp vào nền tảng điện toán đám mây, và quyền định giá của các nhà cung cấp giải pháp an ninh độc lập sẽ chịu áp lực cơ bản.
Với toàn ngành phần mềm, Mythos giống như một tấm gương phản chiếu khoản “nợ kỹ thuật” tích lũy suốt hàng chục năm qua. Những lỗ hổng tồn tại 27 năm trong rà soát của con người và kiểm thử tự động không phải vì không ai tìm, mà vì sự chú ý và kiên nhẫn của con người có giới hạn. Còn AI thì không có giới hạn ấy.
Với ngành tiền mã hóa, tín hiệu này còn sắc bén hơn. Thị trường kiểm toán an ninh cho các giao thức DeFi và hợp đồng thông minh từ lâu phụ thuộc vào một vài công ty kiểm toán chuyên nghiệp với đội ngũ chuyên gia con người. Nếu một mô hình cấp độ Mythos có thể tự chủ hoàn tất toàn bộ quy trình từ rà soát mã đến xây dựng mã khai thác, thì giá cả, hiệu quả và độ tin cậy của kiểm toán sẽ bị định nghĩa lại hoàn toàn. Đây có thể là tin vui cho an ninh trên chuỗi, nhưng cũng có thể là dấu chấm hết cho “hào thành” của các công ty kiểm toán.
Cuộc đua an ninh AI năm 2026 đã không còn là “mô hình có hiểu được mã hay không”, mà đã nâng cấp thành “mô hình có thể phá vỡ hệ thống của bạn hay không”. Anthropic chọn để phe phòng thủ ra sân trước, nhưng công ty cũng thừa nhận: “cửa sổ” này sẽ không mở lâu.
Khi AI trở thành hacker mạnh nhất, lối thoát duy nhất là biến AI cũng thành người gác cổng mạnh nhất.
Vấn đề là: người gác cổng và kẻ tấn công đều sử dụng cùng một mô hình.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News














