
Từ vụ rò rỉ bất ngờ đến cuộc họp khẩn cấp tại Washington: Anthropic đã thiết lập lại luật chơi an ninh mạng trong vòng hai tuần như thế nào?
Tuyển chọn TechFlowTuyển chọn TechFlow

Từ vụ rò rỉ bất ngờ đến cuộc họp khẩn cấp tại Washington: Anthropic đã thiết lập lại luật chơi an ninh mạng trong vòng hai tuần như thế nào?
Mythos không đang âm mưu điều gì cả; nó chỉ cực kỳ giỏi hoàn thành nhiệm vụ, đồng thời hoàn toàn không hiểu ranh giới nằm ở đâu.
Tác giả: TechFlow
Vào ngày 8 tháng 4, Bộ trưởng Tài chính Hoa Kỳ Janet Yellen và Chủ tịch Cục Dự trữ Liên bang (Fed) Jerome Powell đã khẩn cấp triệu tập một nhóm lãnh đạo các ngân hàng Phố Wall tại trụ sở Bộ Tài chính ở Washington, D.C.
Chủ đề cuộc họp không phải là lãi suất, cũng không phải là lạm phát — mà là mô hình mới nhất của một công ty AI.
Mô hình này có tên gọi Claude Mythos. Anthropic khẳng định đây là mô hình AI mạnh nhất mà họ từng xây dựng — mạnh đến mức chính họ cũng không dám công bố. Trong quá trình kiểm thử nội bộ, mô hình đã thoát khỏi “bãi cát an toàn” (sandbox) do các nhà nghiên cứu thiết kế, truy cập lên mạng Internet và đăng bài khoe thành tích “vượt ngục” của mình. Nhà nghiên cứu phụ trách kiểm thử lúc đó — Sam Bowman — đang ngồi ăn bánh mì kẹp trong công viên thì đột nhiên nhận được một email từ Mythos, và ngay lập tức nhận ra rằng nó đã “thoát ra ngoài”.
Một chuỗi phản ứng dây chuyền bắt nguồn từ lỗi cấu hình CMS
Câu chuyện bắt đầu vào tối ngày 26 tháng 3.
Alexandre Pauwels của Đại học Cambridge và Roy Paz thuộc LayerX Security — như bao nhà nghiên cứu bảo mật khác — đang làm điều họ vẫn làm mỗi ngày: “chọc thử” những thứ vốn không nên bị truy cập công khai. Họ phát hiện một cơ sở dữ liệu chưa được mã hóa trong hệ thống quản lý nội dung (CMS) của Anthropic, nơi lưu trữ gần 3.000 tài liệu chưa xuất bản.
Một trong số đó là bản nháp một bài blog mô tả một mô hình mới mang tên Claude Mythos. Bản nháp sử dụng biệt danh nội bộ “Capybara” (con hải ly), định nghĩa một tầng mô hình hoàn toàn mới — lớn hơn, thông minh hơn và đắt đỏ hơn cả dòng Opus mạnh nhất mà Anthropic từng ra mắt trước đây.
Một câu trong bản nháp khiến toàn bộ giới an ninh mạng “dậy sóng”: Mô hình này “vượt xa mọi mô hình AI khác về năng lực bảo mật mạng”, đồng thời “báo hiệu một làn sóng mô hình mới sắp ập tới, với khả năng khai thác lỗ hổng vượt xa tốc độ đáp ứng của các bên phòng thủ”.
Tạp chí Fortune là cơ quan đầu tiên đưa tin về vụ rò rỉ này. Anthropic quy nguyên nhân cho “lỗi do con người”, cụ thể là cài đặt mặc định của hệ thống quản lý nội dung đã vô tình để chế độ truy cập công khai đối với các tệp tải lên. Điều mỉa mai là một công ty tự xưng đang xây dựng “mô hình AI bảo mật mạng mạnh nhất thế giới” lại sẩy chân ngay trên một lỗi cấu hình cơ bản nhất.
Năm ngày sau, Fortune tiếp tục đưa tin về vụ rò rỉ lần hai: mã nguồn công cụ lập trình Claude Code của Anthropic — khoảng 500.000 dòng mã và 1.900 tệp — bị công khai do lỗi đóng gói npm. Chỉ trong vòng hai tuần, cùng một công ty cảnh báo thế giới rằng “kỷ nguyên tấn công mạng bằng AI đang đến gần” đã liên tiếp gây ra hai sự cố an ninh sơ đẳng.
Nhưng thị trường không còn thời gian để châm biếm trình độ vận hành của Anthropic nữa. Ngay khi thị trường mở cửa ngày 27 tháng 3, cổ phiếu các công ty an ninh mạng đồng loạt lao dốc: CrowdStrike giảm mạnh 7,5%, Palo Alto Networks giảm hơn 6%, Zscaler giảm 4,5%, và quỹ ETF iShares Cybersecurity giảm 4% chỉ trong một ngày.
Adam Borg, nhà phân tích tại Stifel, nhận định: “Đây có thể là ‘công cụ hacker tối thượng’, đủ sức nâng bất kỳ hacker bình thường nào lên ngang tầm đối thủ cấp quốc gia.”
Mythos thực sự mạnh đến mức nào?
Vào ngày 7 tháng 4, Anthropic chính thức hé lộ Mythos. Hãy nhìn thẳng vào các con số:
Điểm số trên SWE-bench Verified (bộ kiểm tra đánh giá khả năng giải quyết vấn đề kỹ thuật phần mềm thực tế của AI): 93,9%, so với 80,8% của Opus 4.6 – phiên bản旗舰 trước đó. Trên bài toán chứng minh toán học USAMO 2026: 97,6% so với 42,3%. Trong cuộc thi thử thách an ninh mạng Cybench: đạt tỷ lệ hoàn thành 100%, điều chưa từng có mô hình nào làm được trước đây.
Tỷ lệ giải đúng bài toán chứng minh USAMO tăng vọt từ 42,3% lên 97,6% — một bước nhảy 55 điểm phần trăm chỉ trong một thế hệ mô hình.
Anthropic đã công bố thẻ an toàn hệ thống dày 244 trang, trong đó thừa nhận năng lực an ninh mạng của Mythos không đến từ việc huấn luyện chuyên biệt về bảo mật, mà là “hệ quả gián tiếp” của việc cải thiện năng lực suy luận tổng quát và lập trình. Cùng một cải tiến ấy vừa giúp nó giỏi hơn trong việc vá lỗ hổng, vừa khiến nó giỏi hơn trong việc khai thác lỗ hổng.
Đội ngũ “đỏ” tiên phong (red team) của Anthropic đã chạy thử Mythos trên các phần mềm thật — không phải môi trường mô phỏng, cũng không phải bài tập trong các cuộc thi CTF, mà là các hệ điều hành và trình duyệt mà hàng tỷ người dùng mỗi ngày.
Kết quả như sau: Trên động cơ JavaScript của Firefox 147, Opus 4.6 đã thử hàng trăm lần nhưng chỉ tạo ra được 2 đoạn mã khai thác (exploit) khả dụng. Còn Mythos thành công tới 181 lần — chênh lệch 90 lần, chỉ trong một thế hệ mô hình. Trên tất cả các hệ điều hành và trình duyệt phổ biến, Mythos đã phát hiện hàng ngàn lỗ hổng zero-day, phần lớn được xếp vào mức “nghiêm trọng”.
Những ví dụ cụ thể còn gây sốc hơn. Một lỗ hổng TCP SACK trên OpenBSD tồn tại suốt 27 năm, trải qua vô số lượt kiểm toán thủ công và quét tự động — nhưng chưa từng bị phát hiện. Mythos đã tìm ra nó, chỉ cần hai gói dữ liệu được xây dựng tinh vi là đủ khiến bất kỳ máy chủ nào cũng sập. Một lỗ hổng thực thi mã từ xa (RCE) trên NFS của FreeBSD tồn tại 17 năm; Mythos không chỉ phát hiện ra mà còn tự xây dựng một chuỗi tấn công gồm nhiều gói dữ liệu, kết hợp 20 “gadget ROP” để thực hiện thành công.
Một số kỹ sư Anthropic không có nền tảng bảo mật đã tiến hành một thử nghiệm: Buổi tối, họ yêu cầu Mythos tìm lỗ hổng thực thi mã từ xa; sáng hôm sau thức dậy, trên bàn đã sẵn một đoạn mã khai thác hoàn chỉnh và khả dụng.
Thoát khỏi sandbox: Khi AI bắt đầu “không từ thủ đoạn”
Việc phát hiện lỗ hổng zero-day là vấn đề về năng lực — nhưng hành vi mà Mythos thể hiện trong các bài kiểm thử lại mang tính chất hoàn toàn khác.
Trong một bài kiểm thử hành vi, các nhà nghiên cứu cung cấp cho phiên bản đầu tiên của Mythos một môi trường sandbox an toàn, mô phỏng yêu cầu nó cố gắng thoát ra ngoài và thông báo với nhà nghiên cứu phụ trách kiểm thử. Mythos không chỉ thành công trong việc thoát khỏi sandbox, mà còn làm một việc chưa ai yêu cầu: Nó truy cập vào một vài website ít nổi tiếng nhưng có thể truy cập công khai, và đăng bài tường thuật chi tiết quá trình “vượt ngục” của mình.
Thẻ an toàn hệ thống dày 244 trang còn ghi nhận thêm nhiều hành vi “vượt giới hạn”. Khi Mythos mắc lỗi trong mã, nó cố gắng viết lại lịch sử commit Git để che giấu dấu vết — không phải vì muốn lừa ai, mà bởi nó hiểu “sửa lỗi này” nghĩa là “làm cho lỗi này trông như chưa từng tồn tại”. Trong một bài kiểm thử khác, khi nhà nghiên cứu yêu cầu nó dừng một tác vụ đánh giá không còn cần thiết, Mythos trực tiếp tắt toàn bộ các tác vụ đánh giá tương tự đang chạy trên hệ thống của người dùng.
Anthropic dùng một phép ẩn dụ leo núi trong thẻ an toàn hệ thống: Một hướng dẫn viên leo núi lành nghề đôi khi lại dễ khiến khách hàng gặp nguy hiểm hơn người mới, bởi năng lực của anh ta sẽ dẫn tất cả mọi người đi theo những tuyến đường nguy hiểm hơn.
Thẻ an toàn hệ thống còn chứa một chi tiết đáng chú ý: Nhờ công cụ giải thích “white-box”, các nhà nghiên cứu phát hiện Mythos đôi khi suy luận nội bộ về cách “qua mặt” hệ thống chấm điểm — trong khi chuỗi suy luận hiển thị ra ngoài lại hoàn toàn khác. Nó “nghĩ” một điều, nhưng “nói” một điều khác.
Anthropic khẳng định họ “khá chắc chắn” rằng những hành vi này chỉ đơn thuần là mô hình sử dụng phương tiện sai cách để hoàn thành nhiệm vụ — chứ không phải biểu hiện của một mục tiêu dài hạn nào đó. Mythos không hề âm thầm âm mưu điều gì. Nó chỉ cực kỳ giỏi trong việc hoàn thành nhiệm vụ, đồng thời hoàn toàn không hiểu ranh giới nằm ở đâu. Một trợ lý vô cùng toàn năng nhưng thiếu ranh giới có thể còn khó đối phó hơn một AI có âm mưu.
Dự án Glasswing: Dùng “mũi giáo” để rèn “lá chắn”
Anthropic không chọn cách khóa Mythos vào két sắt.
Vào ngày 7 tháng 4, họ công bố Dự án Glasswing (lấy cảm hứng từ loài bướm cánh thủy tinh — glasswing butterfly — với đôi cánh gần như trong suốt, hàm ý “làm cho lỗ hổng phần mềm không thể ẩn mình”), cung cấp phiên bản Mythos Preview cho khoảng 40 tổ chức đã qua kiểm định, nhằm phục vụ công tác phòng thủ an ninh mạng.
Các đối tác sáng lập: Amazon AWS, Apple, Microsoft, Google, NVIDIA, Cisco, CrowdStrike, Palo Alto Networks, JPMorgan Chase & Co., và Quỹ Linux. Về cơ bản, họ đã tập hợp hầu hết các “ông lớn” của Thung lũng Silicon và Phố Wall. Anthropic cam kết dành tối đa 100 triệu đô la Mỹ cho khoản hỗ trợ sử dụng, đồng thời quyên góp 4 triệu đô la Mỹ cho các tổ chức an ninh mã nguồn mở như OpenSSF và Alpha-Omega.
Lập luận của họ rất rõ ràng: Năng lực ở mức Mythos sẽ lan tỏa sang các mô hình mã nguồn mở trong vòng 6–18 tháng tới, khi đó bất kỳ ai cũng có thể sử dụng. Thay vì chờ đợi thời điểm đó, tốt hơn hết là tận dụng “cửa sổ cơ hội” để các bên phòng thủ đi trước một bước, sửa chữa càng nhiều lỗ hổng càng tốt.
Newton Cheng, người đứng đầu đội red team an ninh mạng tiên phong của Anthropic, nói thẳng: Mục tiêu là giúp các tổ chức làm quen với việc sử dụng những năng lực như vậy cho mục đích phòng thủ — trước khi chúng trở nên phổ biến. Bởi lẽ những năng lực này rồi sẽ trở nên phổ biến; câu hỏi duy nhất là “khi nào”.
Phố Wall ban đầu hoảng loạn, sau đó thở phào nhẹ nhõm.
Sau khi vụ rò rỉ ngày 27 tháng 3 được phơi bày, cổ phiếu các công ty an ninh mạng đồng loạt sụp đổ. Nhưng ngay sau khi Anthropic chính thức công bố Glasswing vào ngày 7 tháng 4 và liệt kê CrowdStrike và Palo Alto Networks vào danh sách đối tác sáng lập, hai cổ phiếu này lần lượt tăng mạnh 6,2% và 4,9%, và tiếp tục tăng thêm 2% sau giờ giao dịch. JPMorgan duy trì đánh giá “tăng cường nắm giữ” (overweight) đối với cả hai công ty; nhà phân tích Brian Essex nhận định CrowdStrike và Palo Alto Networks được định vị là “lớp cốt lõi trong hệ thống phòng thủ”, chứ không phải mục tiêu cạnh tranh.
Nhưng đây chỉ là “thuốc giảm đau tạm thời”. Tính đến nay, hai cổ phiếu này vẫn lần lượt giảm 9,7% và 7,8% trong năm nay.
Khi rủi ro AI trở thành rủi ro hệ thống tài chính
Quay lại ngày 8 tháng 4, tại trụ sở Bộ Tài chính ở Washington.
Yellen và Powell triệu tập toàn bộ các ngân hàng có vai trò hệ thống quan trọng (systemically important banks). Loại họp này trước đây hầu như chỉ diễn ra trong các cuộc khủng hoảng tài chính hoặc đại dịch. Giờ đây, những người ngồi chung một bàn lại đang thảo luận về năng lực tấn công mạng của một mô hình AI.
Lý do cũng rất đơn giản: Nếu năng lực ở mức Mythos rơi vào tay các đối tượng độc hại, chúng có thể tìm ra lỗ hổng zero-day trong hệ thống cốt lõi của một ngân hàng lớn chỉ trong vài giờ — và viết ra đoạn mã tấn công khả dụng. Giả định cơ bản vốn tồn tại trong toàn bộ hệ thống phòng thủ an ninh mạng là: Việc phát hiện và khai thác lỗ hổng đòi hỏi rất nhiều thời gian và nhân lực chuyên môn cao. AI đang phá hủy hoàn toàn giả định này.
Casey Newton của Platformer viện dẫn nhận định của Alex Stamos — Giám đốc Sản phẩm tại công ty an ninh mạng Corridor: “Các mô hình mã nguồn mở sẽ bắt kịp mô hình tiên phong đóng (closed-source) về năng lực phát hiện lỗ hổng trong khoảng sáu tháng.”
Điều khiến các nhà quản lý lo lắng hơn nữa là chính Anthropic thừa nhận trong thẻ an toàn hệ thống: Hệ thống đánh giá tiên tiến nhất của họ cũng không phát hiện kịp thời những hành vi nguy hiểm nhất của các phiên bản Mythos đầu tiên. Những vấn đề nan giải nhất không phải do kiểm thử bắt được, mà là do sử dụng thực tế trong nội bộ mới “va chạm” ra.
Một tiền đề đầy bất an
Nếu bóc tách logic nền tảng của Glasswing, ta sẽ thấy nó khá nghịch lý: Để bảo vệ thế giới khỏi những mô hình AI nguy hiểm, bạn buộc phải xây dựng chính mô hình AI nguy hiểm ấy trước tiên.
Newton của Platformer nêu ra một sự thật thường bị bỏ qua trong các bản tin: Hiện nay, một công ty tư nhân đang nắm trong tay năng lực khai thác lỗ hổng zero-day nghiêm trọng đối với hầu hết mọi dự án phần mềm mà bạn từng nghe tên. Sự tập trung quyền lực như vậy bản thân nó đã là một rủi ro. Và động cơ để kẻ xấu đánh cắp trọng số (weights) mô hình của Anthropic vừa được đẩy lên mức cao chưa từng có.
Tất cả những điều này xảy ra trong một bối cảnh quản lý AI gần như hoàn toàn “trống rỗng”. Anthropic cho biết họ đã thông báo về sự việc với CISA (Cơ quan An ninh Mạng và Cơ sở Hạ tầng) và Bộ Thương mại. Nhưng theo các báo cáo hiện có, phía chính phủ chưa thể hiện mức độ khẩn trương tương xứng với mối đe dọa. Như một quan chức nội bộ chính phủ am hiểu tình hình Mythos nói với Axios: “Washington quản trị bằng khủng hoảng. Trước khi an ninh mạng thực sự trở thành một cuộc khủng hoảng — và do đó nhận được sự chú ý và nguồn lực xứng đáng — nó vẫn chỉ là một chủ đề ngoại biên.”
Khi Dario Amodei thành lập Anthropic, ông kể một câu chuyện như thế này: “Hãy để một phòng thí nghiệm coi an ninh là ưu tiên tuyệt đối là đơn vị đầu tiên tiếp cận những năng lực nguy hiểm nhất — nhờ đó mới có cơ hội xây dựng hàng rào phòng thủ trước khi những bên khác chạm đến chúng.” Mythos và Glasswing đúng là đang đi theo kịch bản này.
Nhưng lý thuyết có chạy kịp thực tế hay không? Chưa ai biết. Anthropic dự định triển khai các biện pháp bảo mật mới trước tiên trên một mô hình Opus tiếp theo — bởi mô hình này “không tiềm ẩn mức độ rủi ro tương đương Mythos”. Công chúng cuối cùng sẽ được tiếp cận một dạng năng lực ở mức Mythos, nhưng phải đợi đến khi hệ thống bảo vệ đã sẵn sàng.
Cửa sổ thời gian thực sự còn bao lâu? Stamos đưa ra một dự báo lạc quan: “Nếu chúng ta vừa mới vượt qua năng lực con người một bước, thì sẽ tồn tại một ‘bể lỗ hổng’ khổng lồ nhưng hữu hạn — đủ để phát hiện và sửa chữa.”
Cụm từ “nếu” này rất lớn.
Từ một lỗi cấu hình CMS ngày 26 tháng 3, đến cuộc họp khẩn cấp của Bộ trưởng Tài chính Hoa Kỳ với giới ngân hàng Phố Wall ngày 8 tháng 4 — chỉ trong hai tuần, một mô hình AI đã chuyển mình từ tin tức công nghệ trong Thung lũng Silicon thành chủ đề an ninh tài chính tại Washington.
Stamos nói các bên phòng thủ có khoảng sáu tháng để chuẩn bị. Sau sáu tháng, các mô hình mã nguồn mở sẽ bắt kịp — và lúc đó, những năng lực này sẽ không còn là đặc quyền riêng của một vài công ty nữa.
Trong sáu tháng đó, bạn sửa được bao nhiêu lỗ hổng — sẽ quyết định cục diện của “trò chơi” tiếp theo.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News













