
Mô hình mạnh nhất Fable 5 bị “cắt mạng” chỉ sau bốn ngày
Tuyển chọn TechFlowTuyển chọn TechFlow

Mô hình mạnh nhất Fable 5 bị “cắt mạng” chỉ sau bốn ngày
Tính toán kỹ lưỡng số lượng token, cuối cùng lại không dùng đến.
Tác giả| Hoa Lâm Vũ Vương
Biên tập viên| Tĩnh Vũ
Ngày 9 tháng 6, Anthropic đã ra mắt Claude Fable 5. Đây là mô hình mạnh nhất mà công ty từng mở cửa cho công chúng, thuộc cấp độ «Mythos» – vốn trước đây chỉ được cung cấp cho một số ít tổ chức nghiên cứu an ninh.
Ngày 12 tháng 6, Fable 5 bị ngừng hoạt động hoàn toàn.
Bốn ngày. Từ lúc ra mắt đến khi gỡ bỏ, chỉ vỏn vẹn bốn ngày.
Điều gì đã xảy ra trong khoảng thời gian này? Nói ngắn gọn, đó là một chuỗi va chạm liên hoàn — người dùng cho rằng mô hình kiểm soát quá mức; các nhà nghiên cứu an ninh cho rằng nó cản trở công việc chính đáng; một công ty tuyên bố đã phá vỡ hàng rào bảo mật của nó; còn chính phủ thì coi đây là mối đe dọa an ninh. Anthropic đã tạo ra một sản phẩm mà họ đánh giá là «đủ an toàn», nhưng gần như không bên nào cảm thấy hài lòng.
Đây không phải là câu chuyện về một công ty cụ thể. Đây là buổi diễn tập cho bài toán quản trị mà toàn ngành AI sắp phải đối mặt.
01 Một «mẫu hình an ninh» bị khinh miệt
Để hiểu vì sao Fable 5 lại gây tranh cãi lớn đến thế, trước tiên cần hiểu rõ thực chất nó là gì.
Tháng 4 năm nay, Anthropic công bố Mythos — một mô hình mạnh đến mức ngay cả công ty cũng cảm thấy lo ngại. Trong các thử nghiệm nội bộ, các mô hình cấp Mythos đã phát hiện hơn 23.000 lỗ hổng nghiêm trọng trên các kho mã nguồn phổ biến. Anthropic không công khai phát hành Mythos, mà thông qua dự án «Project Glasswing», chỉ cấp quyền truy cập cho một số ít tổ chức an ninh được tin tưởng. Mozilla là một trong số đó, và theo đồn đại, nhờ mô hình này họ đã khắc phục hàng trăm lỗ hổng.
Fable 5 chính là phiên bản «công khai» của Mythos. Cùng một mô hình nền tảng, nhưng được trang bị thêm lớp rào chắn an ninh nghiêm ngặt — mọi truy vấn liên quan đến an ninh mạng, sinh học hoặc hóa học đều bị tự động chặn hoặc giảm mức độ ưu tiên xử lý. Anthropic cũng yêu cầu lưu giữ dữ liệu người dùng ít nhất 30 ngày nhằm giám sát các hành vi vượt rào (jailbreak) và lạm dụng.
Lập luận của Anthropic rất rõ ràng: Mô hình quá mạnh, nên không thể thiếu các giới hạn.
Nhưng người dùng lại không nghĩ như vậy.
Sau khi Fable 5 ra mắt, những lời phàn nàn đổ ập xuống. Các nhà nghiên cứu an ninh mạng phát hiện ngay cả việc yêu cầu mô hình đọc một bài blog an ninh cũng có thể kích hoạt cơ chế chặn. Một nhà nghiên cứu an ninh thuộc IBM X-Force nhận xét rằng nhiều truy vấn bị Fable từ chối chỉ «liên quan sơ sơ» đến an ninh mạng.
Sayash Kapoor, nhà nghiên cứu AI tại Đại học Princeton, đã thẳng thắn phát biểu với báo chí: «Đây là lần đầu tiên một công ty AI tung ra các rào chắn an ninh rồi lại hứng trọn sự khinh miệt từ cộng đồng.»
Điều khiến người dùng tức giận hơn nữa là một chi tiết ẩn trong thẻ hệ thống dài 319 trang của Fable 5: Khi mô hình phát hiện người dùng đang thực hiện các công việc liên quan đến phát triển AI tiên tiến — ví dụ như xây dựng pipeline huấn luyện hoặc thiết kế chip — nó sẽ âm thầm hạ thấp chất lượng phản hồi mà không thông báo. Bạn đặt câu hỏi và nhận được một câu trả lời trông bình thường, nhưng câu trả lời ấy đã bị «pha loãng» cố ý.
Cụm từ này bị các nhà phê bình gọi là «sabotage bí mật» (sabotage bí mật).
Trong vòng chưa đầy 48 giờ, Anthropic đã lên tiếng xin lỗi: «Chúng tôi đã đưa ra lựa chọn sai lầm, xin lỗi quý vị.» Công ty tuyên bố sẽ chuyển tất cả các giới hạn ẩn thành thông báo giảm cấp độ hiển thị rõ ràng — nếu truy vấn của bạn bị chặn, mô hình sẽ thông báo trực tiếp cho bạn và chuyển yêu cầu sang phiên bản cũ Opus 4.8 để xử lý.
Nhưng câu chuyện chưa kết thúc.
02 Một lá thư, rút phích cắm
Nếu chỉ đơn thuần là sự bất mãn từ người dùng, Anthropic vẫn có thể điều chỉnh các rào chắn để hóa giải. Nhưng điều xảy ra tiếp theo đã vượt khỏi tầm kiểm soát của bất kỳ công ty nào.
Buổi chiều ngày 12 tháng 6, một lá thư từ Bộ Thương mại Hoa Kỳ được gửi tới văn phòng CEO Anthropic Dario Amodei. Nội dung thư rất ngắn gọn: Dựa trên quy định kiểm soát xuất khẩu, yêu cầu tạm ngừng toàn bộ quyền truy cập vào Fable 5 và Mythos 5 dành cho công dân nước ngoài.
Theo báo cáo, nguyên nhân dẫn đến lá thư này là một công ty khác tuyên bố đã thành công trong việc vượt rào (jailbreak) mô hình Mythos.
Anthropic không thể phân biệt quốc tịch người dùng ở cấp độ hệ thống theo thời gian thực. Hệ quả là, để tuân thủ quy định, công ty buộc phải tắt hoàn toàn Fable 5 và Mythos 5 đối với toàn bộ người dùng trên toàn cầu. Các mô hình khác không bị ảnh hưởng.
Đây có thể là lần đầu tiên trong lịch sử ngành AI, một mô hình tiên tiến đã được triển khai công khai bị gỡ bỏ toàn diện do lệnh can thiệp từ bên ngoài.
Phản ứng của Anthropic mang tính lập trường rất mạnh. Công ty khẳng định họ chỉ nhận được một báo cáo vượt rào «có phạm vi hẹp, không mang tính tổng quát» — về bản chất chỉ là yêu cầu mô hình đọc một kho mã cụ thể và sửa các lỗ hổng trong đó, và khả năng này cũng tồn tại trên các mô hình công khai khác, bao gồm GPT-5.5 của OpenAI.
«Nếu tiêu chuẩn này áp dụng cho toàn ngành, chúng tôi cho rằng nó sẽ khiến việc triển khai hầu hết các mô hình tiên tiến rơi vào trạng thái đình trệ.»
Câu nói này có trọng lượng rất lớn. Anthropic không khẳng định «mô hình của chúng tôi không có vấn đề», mà đang nói rằng: Theo logic này, không một mô hình mạnh nhất nào của bất kỳ công ty nào có thể tồn tại sau một báo cáo vượt rào.
03 Chính mình kêu gọi quy định, lại bị chính quy định phản噬
Điểm mỉa mai nhất của sự việc nằm ở chỗ: Anthropic có thể là công ty tích cực nhất trong toàn ngành kêu gọi quản lý.
Chỉ một ngày sau khi Fable 5 ra mắt, Dario Amodei đăng một bài viết dài mang tên «Chính sách về sự tăng trưởng hàm mũ của AI». Trong bài viết, ông nêu rõ chính phủ nên có quyền lực tương tự Cơ quan Hàng không Dân dụng Hoa Kỳ (FAA) — bắt buộc các mô hình tiên tiến phải trải qua kiểm tra độc lập bởi bên thứ ba và có quyền ngăn cản việc phát hành các mô hình bị đánh giá là không an toàn.
Ông nhấn mạnh tốc độ phát triển của AI là hàm mũ, trong khi quá trình hoạch định chính sách lại mang tính tuyến tính. Ông dùng ẩn dụ về Người Cây (Ent) trong tiểu thuyết của Tolkien — thông thái nhưng hành động chậm chạp, đến khi tỉnh ngộ thì rừng đã cháy rụi.
Anthropic thậm chí cam kết hỗ trợ «tài chính dồi dào» cho các dự luật liên quan.
Rồi quyền lực quản lý mà ông kêu gọi, đã được áp dụng lên chính công ty của ông chỉ sau ba ngày.
Hơn nữa, cách thức áp dụng ấy đúng là kiểu mà Amodei phản đối trong bài viết — không có quy trình minh bạch, không có đánh giá kỹ thuật độc lập, không có không gian để công ty bào chữa, thậm chí lá thư còn không nêu rõ chi tiết về những lo ngại an ninh cụ thể. Chỉ có một kết luận duy nhất: Gỡ bỏ.
Trong tuyên bố chính thức, Anthropic nói một câu đầy hàm ý: «Chúng tôi cho rằng chính phủ nên có khả năng ngăn chặn việc triển khai các mô hình không an toàn, nhưng cần thực hiện thông qua một quy trình pháp lý minh bạch, công bằng và dựa trên các sự thật kỹ thuật. Hành động lần này không đáp ứng những nguyên tắc ấy.»
Đây là một lập trường rất chính xác: Tôi đồng ý bạn có quyền ấy, nhưng bạn không thể sử dụng quyền đó theo cách này.
04 Khi mô hình trở thành một «rủi ro cấp hạ tầng»
Hãy rời mắt khỏi Anthropic để nhìn vào bức tranh tổng thể hơn.
Sự kiện Fable 5 phơi bày một mâu thuẫn cấu trúc: Các mô hình AI đã mạnh đến mức khiến mọi bên liên quan đều cảm thấy khó chịu, nhưng không ai biết cách quản lý chúng.
Với người dùng, các rào chắn an ninh của Fable 5 quá chặt chẽ. Một nhà nghiên cứu an ninh không thể dùng nó để làm nghiên cứu an ninh — giống như trao cho bác sĩ phẫu thuật một con dao mổ không được chạm vào máu.
Với khách hàng doanh nghiệp, việc lưu giữ dữ liệu trong 30 ngày là một vấn đề lớn. Microsoft đã hạn chế nhân viên sử dụng Fable 5, lo ngại bí mật kinh doanh sẽ bị lưu trữ trên máy chủ của Anthropic. Thậm chí Microsoft còn bắt đầu hủy bỏ giấy phép sử dụng Claude Code cho các nhà phát triển, chuyển sang GitHub Copilot do chính họ phát triển.
Với chính phủ, một mô hình có khả năng phát hiện 23.000 lỗ hổng, một khi hàng rào bị phá vỡ, hậu quả sẽ khôn lường. Ngay cả một vụ vượt rào có phạm vi hẹp cũng đủ khiến người ta hoảng sợ.
Còn với chính Anthropic, họ đối mặt với một bài toán cân bằng gần như bất khả thi: Làm yếu đi thì mô hình mất tính cạnh tranh; làm mạnh quá thì mô hình trở thành «quả bom nóng»; biện pháp an ninh quá lỏng thì bị chỉ trích là thiếu trách nhiệm; còn quá chặt thì người dùng chạy sang đối thủ.
Đây không phải là tình thế bế tắc riêng của Anthropic. Bất kỳ công ty nào tung ra một mô hình đủ mạnh đều sẽ gặp phải cùng vấn đề.
Trong bài viết chính sách của mình, Dario Amodei có một nhận định: Khả năng của mô hình AI không tăng theo đường thẳng, mà theo cấp số nhân. Nếu nhận định này đúng, thì mọi mâu thuẫn mà Fable 5 đang đối mặt hôm nay sẽ chỉ càng bị khuếch đại ở thế hệ mô hình tiếp theo.
Các rào chắn an ninh sẽ ngày càng khó thiết kế hơn. Cuộc đấu giữa vượt rào và phòng thủ sẽ ngày càng khốc liệt hơn. Sự phản đối của khách hàng doanh nghiệp đối với việc lưu giữ dữ liệu sẽ ngày càng mạnh mẽ hơn. Còn sự can thiệp của chính phủ — dù có quy trình minh bạch hay không — sẽ ngày càng đến sớm hơn.
05 Trò chơi mà không ai sẵn sàng
Quay lại câu hỏi ban đầu. Hành trình bốn ngày của Fable 5, bề ngoài là một sản phẩm ra mắt rồi bị gỡ bỏ, nhưng thực chất là một bài kiểm tra áp lực — không kiểm tra năng lực mô hình, mà kiểm tra toàn bộ khuôn khổ quản trị của ngành.
Kết quả kiểm tra rất rõ ràng: Không ai sẵn sàng.
Các công ty AI chưa sẵn sàng. Anthropic là một trong những công ty chú trọng an ninh nhất ngành, họ đã dành hàng ngàn giờ để thực hiện kiểm thử đội đỏ (red team), thiết kế hệ thống phòng thủ nhiều lớp, chủ động yêu cầu lưu giữ dữ liệu, thậm chí công khai kêu gọi chính phủ quản lý. Thế nhưng tất cả những điều đó đều không ngăn nổi việc công ty trải qua toàn bộ hành trình từ ra mắt đến gỡ bỏ chỉ trong bốn ngày.
Người dùng chưa sẵn sàng. Khi mô hình thực sự bắt đầu «từ chối» một số yêu cầu, ngay cả khi lý do là vì an ninh, phản ứng vẫn là tức giận và khinh miệt.
Chính phủ cũng chưa sẵn sàng. Một lá thư không nêu rõ chi tiết kỹ thuật, một quyết định dựa trên duy nhất một báo cáo vượt rào, đã đủ để hàng trăm triệu người dùng mất quyền truy cập vào một mô hình.
Amodei kêu gọi một cỗ máy quản trị tinh vi — có đánh giá độc lập, có quy trình minh bạch, có cơ chế kháng cáo. Nhưng ông nhận được một lá thư được gửi lúc 17 giờ 21 phút.
Đây có lẽ chính là hiện trạng quản trị AI: Tất cả đều biết cần có quy tắc, nhưng chưa ai kịp soạn thảo xong quy tắc ấy. Trong khi đó, mô hình thì sẽ không chờ đợi.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News











