
Thử nghiệm thực tế mô hình Fable 5 mạnh nhất trong lịch sử của Claude — Người dùng thông thường nên cân nhắc kỹ trước khi sử dụng
Tuyển chọn TechFlowTuyển chọn TechFlow

Thử nghiệm thực tế mô hình Fable 5 mạnh nhất trong lịch sử của Claude — Người dùng thông thường nên cân nhắc kỹ trước khi sử dụng
Chào mừng bạn bước vào kỷ nguyên tính phí theo token.
Tác giả: APPSO
Tin xấu nhất dành cho người bình thường sắp được công bố.
Vừa qua, Anthropic đã chính thức ra mắt Claude Fable 5 và Claude Mythos 5.
Trong đó, Fable 5 là mô hình cấp Mythos đầu tiên của Anthropic mở cửa cho công chúng; còn Mythos 5 chủ yếu phục vụ một số ít tổ chức phòng thủ an ninh mạng, nhà cung cấp hạ tầng trọng yếu và các nhà nghiên cứu y sinh học sẽ tham gia Chương trình Truy cập Đáng tin cậy trong giai đoạn tiếp theo.
Tuy nhiên, điều ít người để ý là, theo thông báo chính thức, từ nay đến ngày 22 tháng 6, Fable 5 sẽ được tích hợp miễn phí vào các gói đăng ký Pro, Max, Team và Enterprise tính theo số chỗ ngồi. Từ ngày 23 tháng 6 trở đi, Fable 5 sẽ bị loại khỏi các gói đăng ký này và người dùng muốn tiếp tục sử dụng phải tiêu tốn “credit sử dụng” (usage credits).
Nói cách khác, mô hình “thẻ tháng” từng cho phép người dùng truy cập mô hình AI mạnh nhất một cách trọn gói có thể sẽ không còn tồn tại. Đối với người dùng, tương lai không chỉ cần cân nhắc giá đăng ký mà còn phải tính toán chi phí thực tế dưới dạng token tiêu thụ cho mỗi lần gọi API và mỗi tác vụ dài hạn.
Xin chào mừng bạn đến kỷ nguyên thanh toán theo token.
Claude Fable 5 xuất hiện như một vị thần – nhưng cũng là “kẻ sát nhân token” tàn nhẫn nhất
Anthropic cũng giải thích nguồn gốc tên gọi Fable và Mythos. “Fable” bắt nguồn từ tiếng Latinh “fabula”, nghĩa là “một câu chuyện nhỏ được kể lại”, về mặt ý nghĩa gần tương đương với “Mythos” trong tiếng Hy Lạp.
Hai cái tên mới này trông như hai mô hình riêng biệt, thực chất lại gần giống hai phiên bản khác nhau của cùng một mô hình nền tảng. Hiện tại, Fable 5 đang mở cửa cho công chúng với các giới hạn an ninh nghiêm ngặt hơn;
trong khi Mythos 5 hiện chỉ được cung cấp thông qua Chương trình Glasswing cho một số ít tổ chức phòng thủ an ninh mạng và đối tác vận hành hạ tầng trọng yếu.
Theo bài viết trên blog chính thức của Anthropic, Fable 5 là mô hình khả dụng chung mạnh nhất hiện nay của công ty, với những cải thiện rõ rệt trong kỹ thuật phần mềm, công việc tri thức, hiểu thị giác và nghiên cứu khoa học. Độ dài và độ phức tạp của nhiệm vụ càng cao thì lợi thế của Fable 5 so với các mô hình Claude trước đây càng nổi bật.
Ý nghĩa then chốt của Fable 5 nằm ở chỗ đây là lần đầu tiên năng lực cấp Mythos được mở rộng quy mô lớn cho người dùng phổ thông. Biểu đồ điểm kiểm tra chuẩn (benchmark) như sau — dẫn đầu một cách áp đảo.
Tuy nhiên, chính tên gọi mô hình cũng gây ra một số tranh luận. Ông Tibo – cựu phụ trách dự án OpenAI Codex – đã đăng bài đùa rằng Anthropic đã chọn dùng tên “Fable”, vốn là cái tên mà OpenAI từng định dùng nhưng cuối cùng lại không sử dụng.
Về năng lực, kỹ thuật phần mềm là một trong những lĩnh vực được Anthropic nhấn mạnh nhất.
Anthropic cho biết Stripe trong giai đoạn thử nghiệm sớm đã giao cho Fable 5 nhiệm vụ di chuyển toàn bộ kho mã Ruby gồm 50 triệu dòng. Nếu giao việc này cho một đội kỹ sư thực hiện thủ công, thời gian hoàn thành sẽ mất hơn hai tháng; còn Fable 5 hoàn tất chỉ trong một ngày.
Kết quả kiểm tra FrontierCode của Cognition cũng cho thấy Fable 5 vượt trội trong các tác vụ mã hóa sản xuất phức tạp. Bài kiểm tra này không tập trung vào các bài toán lập trình thông thường, mà đánh giá khả năng hoàn thành các nhiệm vụ lập trình khó và đạt tiêu chuẩn mã sản xuất chất lượng cao.
Anthropic còn khẳng định Fable 5 tiết kiệm token hơn các mô hình Claude trước đây. Dẫu vậy, lời tuyên bố này chỉ nên nghe cho vui — bởi mỗi lần ra mắt mô hình Claude mới, Anthropic đều đưa ra tuyên bố tương tự, song hầu hết các mô hình ấy đều trở thành những “kẻ sát nhân token”, tạo ra vô số trò cười trên khắp mạng internet.
Về công việc tri thức, Fable 5 đạt điểm cao nhất trong bài kiểm tra tài chính chuẩn của Hebbia, với những cải thiện tập trung vào suy luận tài liệu, hiểu biểu đồ và phân tích vấn đề phức tạp. Đánh giá phân tích giao dịch của IMC cũng cho thấy Fable 5 thể hiện tốt ở cả bốn khía cạnh: truy xuất sự kiện, suy luận khái niệm, phân tích nguyên nhân và phân tích kỳ vọng.
Khả năng thị giác cũng là trọng tâm của đợt ra mắt. Anthropic cho biết Fable 5 có thể trích xuất con số chính xác từ các biểu đồ khoa học phức tạp, đồng thời tái tạo mã nguồn ứng dụng dựa trên ảnh chụp màn hình trang web.
Công ty còn trình bày một ví dụ trực quan hơn: Fable 5 chỉ dựa vào hình ảnh trò chơi để hoàn thành tựa game *Pokémon FireRed*, không cần bản đồ bổ sung, công cụ điều hướng hay thông tin trạng thái trò chơi. Các mô hình Claude trước đây khi thực hiện nhiệm vụ tương tự vẫn cần hệ thống hỗ trợ phức tạp hơn.
Khả năng xử lý ngữ cảnh dài và ghi nhớ cũng được nâng cấp. Trong bài kiểm tra *Slay the Spire*, Anthropic phát hiện rằng khi cung cấp bộ nhớ file bền vững cho mô hình, hiệu suất của Fable 5 tăng gấp ba lần so với Opus 4.8, đồng thời tần suất tiến vào chương cuối cũng tăng gấp ba.
Lĩnh vực khoa học đời sống lại đặc biệt nhạy cảm. Anthropic cho biết các chuyên gia thiết kế protein nội bộ sử dụng Mythos 5 để đẩy nhanh quy trình thiết kế thuốc khoảng 10 lần.
Trong một trường hợp cụ thể, Mythos 5 đã kết hợp các công cụ thiết kế protein và sinh tin học để tự động hoàn tất toàn bộ quy trình thường do nhà khoa học thực hiện — bao gồm lựa chọn vị trí liên kết, gọi công cụ thiết kế và xử lý kết quả thất bại — mà không cần hỗ trợ từ con người. Trong số 14 mục tiêu protein được thử nghiệm, có tới 9 mục tiêu tạo ra các phương án ứng cử xứng đáng để tiếp tục nghiên cứu.
Sự cải thiện về năng lực trong khoa học đời sống và an ninh mạng cũng giải thích vì sao Anthropic không mở rộng toàn bộ năng lực cấp Mythos một cách trực tiếp.
Khi Fable 5 mở cửa cho công chúng, Anthropic cũng triển khai một bộ phân loại an ninh mới. Bất kỳ yêu cầu nào liên quan đến an ninh mạng, sinh học, hóa học hoặc chưng cất mô hình — tức các lĩnh vực có rủi ro cao — đều sẽ tự động chuyển sang được xử lý bởi Claude Opus 4.8, đồng thời hệ thống sẽ thông báo cho người dùng rằng mô hình đã thay đổi.
Anthropic cho biết, trong dữ liệu thử nghiệm ban đầu, hơn 95% hội thoại với Fable 5 sẽ không kích hoạt cơ chế chuyển đổi này. Các tác vụ thông thường như viết lách, lập trình, phân tích, thiết kế và xử lý dữ liệu đa số vẫn được xử lý trực tiếp bởi Fable 5. Nhưng ngay khi chạm vào vùng rủi ro cao, năng lực mô hình sẽ bị hạn chế.
An ninh mạng là lĩnh vực bị kiểm soát chặt chẽ nhất. Anthropic thừa nhận mô hình cấp Mythos rất giỏi phát hiện và khai thác lỗ hổng phần mềm, đồng thời sở hữu khả năng tấn công theo kiểu “đại diện” (agent-based) mạnh mẽ — có thể bao quát toàn bộ chuỗi hoạt động từ điều tra, phát hiện đến di chuyển ngang. Để tránh việc năng lực này bị lạm dụng, bộ phân loại an ninh mạng của Fable 5 có phạm vi bao phủ cực kỳ rộng.
Các lĩnh vực sinh học và hóa học cũng tương tự. Anthropic cho rằng mô hình đã đủ năng lực thực hiện các nhiệm vụ khoa học thực tế, nên việc chỉ chặn một vài câu hỏi liên quan đến vũ khí sinh học như trước đây là không còn đủ. Do đó, Fable 5 tạm thời sẽ chuyển các yêu cầu liên quan đến sinh học và hóa học sang xử lý bằng Opus 4.8.
Đáng chú ý, Anthropic còn tích hợp thêm một lớp bảo vệ ẩn đặc biệt nhằm ngăn chặn việc phát triển các mô hình ngôn ngữ lớn tiên tiến.
Lớp bảo vệ này chủ yếu hạn chế việc Claude hỗ trợ xây dựng đường ống huấn luyện tiền xử lý (pretraining pipeline), cơ sở hạ tầng huấn luyện phân tán hoặc thiết kế bộ tăng tốc ML — nhằm tránh tình trạng mô hình ngược lại lại thúc đẩy các tổ chức khác huấn luyện thế hệ mô hình tiên tiến tiếp theo.
Khác với các giới hạn an ninh khác vốn hiển thị rõ ràng khi chuyển sang Opus 4.8, lớp bảo vệ này không thông báo trực tiếp cho người dùng, mà thay vào đó làm giảm hiệu suất của Fable 5 trên các tác vụ liên quan thông qua việc chỉnh sửa prompt, sử dụng vector định hướng (steering vectors) hoặc các kỹ thuật PEFT. Hiện đã có người dùng lên tiếng xác nhận điều này.
Tính đến thời điểm hiện tại, Claude Fable 5 đã chính thức mở cửa cho người dùng toàn cầu. Các nhà phát triển có thể gọi mô hình qua Claude API với tên gọi claude-fable-5. Claude API và gói Enterprise trả theo nhu cầu đã sẵn sàng sử dụng đầy đủ kể từ ngày ra mắt.
Giá của Fable 5 và Mythos 5 là như nhau: 10 đô la Mỹ mỗi triệu token đầu vào và 50 đô la Mỹ mỗi triệu token đầu ra. Theo Anthropic, mức giá này đã thấp hơn một nửa so với phiên bản thử nghiệm Claude Mythos Preview, tuy nhiên đối với các tác vụ dài hạn và cường độ cao thì chi phí vẫn khá cao.
AI cuối cùng cũng đếm đúng 6 ngón tay
So với bài viết trên blog chính thức, các bài kiểm tra thực tế mới thực sự cho thấy Fable 5 mạnh hơn ở điểm nào. Theo kiểm tra thực tế của tôi, Fable 5 giờ đây đã có thể nhận diện chính xác 6 ngón tay.
Nhân dịp kỳ thi tuyển sinh đại học quốc gia vừa kết thúc, chúng tôi cũng lấy một đề văn trong đề thi môn Ngữ văn kỳ thi tốt nghiệp THPT quốc gia năm nay để thử nghiệm khả năng của Fable 5. Nói chung, phong cách văn bản và cách diễn đạt khá mạch lạc, không hề “bình thường” chút nào.
So sánh cụ thể hơn có thể tham khảo bài kiểm tra thực tế của @Hypergent: trong nhiệm vụ trực quan hóa tiểu hành tinh, Fable 5 không chỉ hoàn tất việc trích xuất dữ liệu mà còn thiết kế một giao diện tương tác bao gồm quỹ đạo bay và chi tiết treo lơ lửng — vừa đảm bảo hiệu năng vừa nâng cao khả năng truyền tải thông tin.
Trong nhiệm vụ lập kế hoạch khu nghỉ dưỡng thể thao, Fable 5 kết hợp GPT-Image-2 và Nano Banana để tạo ra phương án bố trí mặt bằng phù hợp hơn với logic sử dụng thực tế — có thể cân nhắc kết nối giữa các khu vực, phân bố chức năng và luồng di chuyển của con người, chứ không đơn thuần chỉ là xếp các tòa nhà một cách máy móc.
Fable 5 có thể kết hợp hiện tượng thiên văn với biểu đạt trực quan để mô phỏng ảnh hưởng của bùng nổ mặt trời lên hiện tượng cực quang; trong khi Opus 4.8 thậm chí còn không tải được bình thường.
Đánh giá của ông Andrej Karpathy — cựu Giám đốc Trí tuệ nhân tạo Tesla, đồng sáng lập OpenAI và hiện đã gia nhập Anthropic — lại càng phản ánh rõ cảm nhận của các nhà phát triển.
Tuy nhiên, về mặt thẩm mỹ thiết kế, con người hiện vẫn chiếm ưu thế nhẹ.
Bài kiểm tra thực tế của Giáo sư Ethan Mollick thuộc Trường Kinh doanh Wharton còn thể hiện rõ hơn nữa sự thay đổi của Fable 5. Sau khi nhận quyền truy cập sớm, ông Mollick tập trung kiểm tra các tác vụ phức tạp như trò chơi, bản đồ và công cụ nghiên cứu.
Một trong những ví dụ tiêu biểu nhất là dự án bản đồ đường đẳng thời (isochrone map). Mollick yêu cầu Fable 5 xây dựng một bản đồ tương tác dựa trên dữ liệu giao thông thực tế, nhằm thể hiện phạm vi tiếp cận từ các thành phố khác nhau trong một khoảng thời gian xác định. Mô hình sau đó đã tự động gọi nhiều Agent để thu thập dữ liệu chuyến bay, đường sắt và đường bộ, đồng thời tự viết mã, chạy kiểm thử và liên tục điều chỉnh kết quả dựa trên phản hồi.
Mollick còn yêu cầu Fable 5 phát triển một công cụ nghiên cứu mang tên Concord. Mô hình trước tiên tạo ra tài liệu thiết kế dài 19 trang, sau đó làm việc liên tục trong 9 tiếng rưỡi để hoàn tất việc phát triển phần mềm — nhằm phân tích dữ liệu nghiên cứu mở và hiệu chỉnh kết quả đánh giá giữa con người và AI.
Tuy nhiên, kiểm tra thực tế cũng phơi bày những vấn đề rõ ràng. Mollick cho rằng Fable 5 vẫn có thể mắc lỗi và bỏ sót, đòi hỏi kiểm tra và hoàn thiện thủ công. Đồng thời, chi phí token cho các tác vụ dài là rất cao, trong khi giá của Fable 5 lại rõ ràng cao hơn Opus 4.8 — do đó, khi triển khai thực tế, chi phí có thể trở thành thách thức lớn nhất.
Năng lực xử lý tác vụ dài và cường độ cao cuối cùng đều phản ánh trực tiếp vào chi phí sử dụng. Là người dùng gói Pro 20 đô la, tôi thậm chí chỉ chạy vài tác vụ đơn giản cũng đã hết hạn mức.
Ứng dụng khách Claude cũng hiển thị rõ dòng chữ “included until June 22” (bao gồm miễn phí cho đến ngày 22 tháng 6), như đã nêu ở đầu bài — theo kế hoạch của Anthropic, sau khi thời gian miễn phí kết thúc, Fable 5 sẽ bị loại khỏi một số gói đăng ký và người dùng muốn tiếp tục sử dụng phải tiêu tốn credit sử dụng.
Trước đây, người dùng chỉ cần trả một khoản phí hàng tháng không quá đắt để phần lớn được hưởng lợi từ những mô hình thông minh mạnh nhất thế giới. Mô hình đăng ký làm mờ chi phí thực tế và khiến cá nhân bình thường đôi khi đứng chung vạch xuất phát với các tập đoàn khổng lồ.
Khi thanh toán theo token xuất hiện, mọi thứ đều sẽ thay đổi.
AI sẽ chuyển từ một dịch vụ gần như “gói tháng” thành một tư liệu sản xuất tiêu thụ theo lượng. Các mô hình mạnh nhất cũng đang dần trở thành những công cụ sản xuất đắt đỏ hơn và được định giá tỉ mỉ hơn.
Một số người có thể không quá quan tâm đến chi phí — ví dụ như giao cho Fable 5 thực hiện tác vụ chuỗi dài 24 giờ, tái cấu trúc 50 triệu dòng mã, phát triển độc lập một ứng dụng hoàn chỉnh, chạy liên tục các dự án nghiên cứu hoặc lặp lại thử nghiệm và chỉnh sửa kết quả nhiều lần.
Nhưng đa số người dùng bình thường sẽ vô thức cân nhắc trước mỗi lần gọi API: Liệu vấn đề này có đáng để tiêu tốn token? Liệu tác vụ này có đáng để giao cho mô hình mạnh nhất? Nếu lần thử này thất bại, có nên để nó thử lại không?
Tin xấu nhất chính là điều này. AI không hề yếu đi. Ngược lại, nó đang mạnh lên với tốc độ chưa từng có — mạnh đến mức có thể độc lập hoàn thành ngày càng nhiều công việc trí óc vốn thuộc về con người.
Đồng thời, “vé vào cửa” để tiếp cận năng lực này đang ngày càng đắt đỏ. Khoảng cách thông tin giữa người bình thường và năng suất tiên tiến — vừa mới được thu hẹp nhờ mô hình ngôn ngữ lớn — có thể lại bị kéo giãn bởi chi phí token quá cao.
Không chỉ Anthropic, mà trong tương lai OpenAI và các nhà cung cấp khác cũng khó lòng ngoại lệ. Mô hình tiên tiến càng mạnh thì chi phí huấn luyện và suy luận càng cao — đặc biệt khi cả hai công ty AI này hiện đều đang nỗ lực niêm yết trên thị trường chứng khoán và cần chứng minh với giới đầu tư rằng họ không chỉ có khả năng huấn luyện các mô hình mạnh hơn, mà còn biến năng lực mô hình thành nguồn doanh thu bền vững.
Do đó, thay vì coi việc ra mắt Fable 5 là một lần nâng cấp mô hình, ta nên xem đây là một đợt “làm nóng” nhằm điều chỉnh toàn diện hệ thống đăng ký AI. Nếu “cửa sổ phổ cập AI” đang bước vào giai đoạn倒计时, thì đây chắc chắn không phải tin tốt nhất.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News














