
“Tôi không cần mô hình tốt hơn nữa”: Những phản ứng đa dạng của cộng đồng AI dưới bài đăng nổi bật trên Reddit
Tuyển chọn TechFlowTuyển chọn TechFlow

“Tôi không cần mô hình tốt hơn nữa”: Những phản ứng đa dạng của cộng đồng AI dưới bài đăng nổi bật trên Reddit
Đối với một sản phẩm cao cấp tập trung vào việc nâng cấp năng lực, “chi phí về khả năng sử dụng do ưu tiên an ninh” đang trở thành yếu tố then chốt quyết định người dùng có sẵn sàng chi trả hay không.
Tác giả: Thứ Sáu, TechFlow
Anthropic vừa công bố một bảng thành tích trên giấy trông hoàn hảo không tì vết.
Claude Fable 5, được ra mắt ngày 9 tháng 6, là mô hình cấp Mythos đầu tiên của công ty mở cửa cho công chúng. Trên bộ tiêu chuẩn đánh giá thực tế về nhiệm vụ kỹ thuật phần mềm SWE-Bench Pro, Fable 5 đạt 80,3%, vượt thế hệ flagship trước đó của chính Anthropic—Opus 4.8—khoảng 11 điểm phần trăm và dẫn trước GPT-5.5 hơn 20 điểm phần trăm.
Nhưng phản ứng từ người dùng lại như một gáo nước lạnh.
Ba ngày sau khi ra mắt, một bài đăng nổi bật trên diễn đàn r/artificial (lượt truy cập hàng tuần: 305.000) có tiêu đề: «Claude Fable khiến tôi nhận ra rằng mình không cần một mô hình tốt hơn nữa.» Người đăng bài Axi0m-22 chia sẻ rằng anh đã thử nghiệm Fable trong một thời gian ngắn cho các nhiệm vụ nghiên cứu bảo mật và công việc thường ngày, nhưng sau đó gần như lập tức quay lại dùng Opus để viết mã và Haiku để xử lý các việc lặt vặt. Anh ví von: «Điều này giống như đang dùng iPhone 14 mà xem buổi ra mắt iPhone 17: bạn biết chiếc mới tốt hơn, nhưng trong đầu chỉ nghĩ: ‘Thôi, cái hiện tại cũng ổn rồi.’»

Khu vực bình luận được yêu thích nhất bị chiếm lĩnh bởi phe «đủ dùng»: Sự nhàm chán với mô hình trở thành tâm trạng chủ đạo
Bình luận xếp hạng cao nhất nhận được 42 lượt thích: «Ngoài việc tăng kích thước cửa sổ ngữ cảnh, từ Opus 4.5 trở đi tôi đã không còn cảm thấy cần một mô hình mạnh hơn nữa.»
Một người dùng khác, hyprlab, nhận được 13 lượt thích với tuyên bố: «Chuyển sang một mô hình đốt token mạnh hơn, tôi chẳng thấy lợi ích nào đối với quy trình làm việc của mình cả; chế độ cường độ cao của Opus 4.8 đã đủ thoải mái rồi.»
Phía sau những phát biểu kiểu này là một bảng cân đối chi phí chung.
Giá API của Fable 5 là 10 USD cho mỗi triệu token đầu vào, gần gấp đôi mức giá của Opus 4.8. Người dùng siromega37 nói thẳng thừng: «Tiêu thụ token cao hơn, nhưng không mang lại lợi ích tương xứng. Tôi cảm giác chúng ta đang bước vào giai đoạn bão hòa, và bong bóng sớm muộn cũng vỡ.»
Người dùng hobopwnzor đưa ra phân tích hệ thống hơn: «Chúng ta đã ở đỉnh của đường cong chữ S một thời gian rồi. Những tiến bộ gần đây chủ yếu đến từ việc gọi công cụ và các cải tiến kỹ thuật phụ trợ, chứ không phải do năng lực bản thân mô hình.»
Hệ thống kiểm soát an toàn trở thành điểm bị phàn nàn nhiều nhất: «90% các tác vụ đều bị từ chối trực tiếp»
Nếu cảm giác «đủ dùng» vẫn chỉ là tâm trạng chung, thì những lời phàn nàn về hệ thống kiểm soát an toàn lại là vấn đề sản phẩm cụ thể.
Theo giải thích chính thức của Anthropic, Fable 5 và Mythos 5—chỉ được cung cấp cho một số ít tổ chức—chia chung cùng một mô hình nền tảng. Sự khác biệt nằm ở chỗ Fable được trang bị thêm bộ phân loại an toàn: các yêu cầu liên quan đến các lĩnh vực rủi ro cao như an ninh mạng sẽ bị chặn lại và chuyển sang Opus 4.8 để xử lý. Công ty khẳng định cơ chế này được điều chỉnh thiên về tính bảo thủ, trung bình chỉ kích hoạt trong dưới 5% các phiên hội thoại và đôi khi sẽ từ chối nhầm các yêu cầu vô hại.
Dưới bài đăng Reddit này, tỷ lệ kích hoạt thực tế mà người dùng cảm nhận rõ ràng cao hơn nhiều so với con số 5%. Người dùng jradoff, nhận được 17 lượt thích, kể rằng anh yêu cầu Fable kiểm tra tính an toàn của mã nguồn do mình viết, nhưng kết quả là «chỉ cần đề cập bất kỳ điều gì liên quan đến an ninh, nó hầu như đều từ chối xử lý», rồi tự động chuyển sang Opus. Một bình luận khác nhận được 12 lượt thích thậm chí còn thẳng thắn hơn: «90% những việc bạn muốn làm với nó đều bị từ chối—nói thẳng ra là vô dụng.»
Người dùng trả phí tỏ ra bực bội hơn. Người đăng ký gói 200 USD, kaitava, viết: «Tôi trả phí sử dụng gấp đôi, muốn nhờ nó thực hiện một lần kiểm tra an toàn, vậy mà lại bị hạ cấp xuống Opus. Giờ tôi ghét mọi thứ về nó, chỉ chờ OpenAI bắt kịp thôi.»
Đối với một sản phẩm flagship quảng bá sự nhảy vọt về năng lực, «giá phải trả về khả năng sử dụng vì an toàn» đang trở thành yếu tố then chốt quyết định người dùng có sẵn sàng chi tiền hay không.
Quan điểm phản bác: Người dùng thực hiện nhiệm vụ nặng cảm nhận rõ sự khác biệt «đêm và ngày»
Dưới bài đăng nóng bỏng này không thiếu những tiếng nói phản bác, và chân dung nhóm phản biện rất rõ ràng: nhiệm vụ càng nặng, đánh giá càng cao.
Bình luận của người dùng Phylaras nhận được 15 lượt thích: «Fable thực sự tạo ra sự khác biệt rõ rệt đối với tôi. Với những nhiệm vụ phức tạp đòi hỏi cửa sổ ngữ cảnh cực lớn, nó đã phát hiện ra những lỗi mà các mô hình trước đó chưa từng bắt được.» Một người dùng tự xưng đang thực hiện mô phỏng vật lý năng lượng cao cho biết: mỗi mô hình mô phỏng riêng lẻ thường dài từ 8.000 đến 10.000 dòng mã, với hàng trăm mô hình tương tác lẫn nhau—«có một mô hình có thể làm việc liên tục độc lập và hiểu sâu các chi tiết môi trường, đối với tôi là điều đáng mong đợi vô cùng.»

Phản bác mạnh mẽ nhất đến từ người dùng Navetz: «Thành thật mà nói, bất kỳ ai đã từng dùng qua mô hình này đều sẽ thấy bài đăng này là chuyện điên rồ. Đối với tôi, nó thông minh đến mức như hai người hoàn toàn khác nhau, và tôi đang dùng nó liên tục. Tôi giải thích với bạn bè không chuyên: điều này giống như từ một cầu thủ sinh viên chuyển thẳng lên đội hình xuất phát của NBA.»
Cũng có người đề xuất cách dùng linh hoạt hơn. Người dùng ready-eddy khuyên nên dùng Fable như một «người lập kế hoạch và sửa chữa», chứ không nên dùng làm «người xây dựng» hằng ngày—trừ khi bạn không bận tâm đến chi phí. Một bình luận khác tổng kết như một hướng dẫn sử dụng: dùng Fable để tính toán bảng tính là chọn sai mô hình; dùng Haiku để chạy nhiệm vụ phức tạp gồm 16 tác nhân cũng là chọn sai mô hình—«không tồn tại mô hình nào vốn dĩ tồi, chỉ tồn tại mô hình bị dùng sai bối cảnh.»
Sau khi điểm chuẩn và cảm nhận thực tế rời xa nhau, AI công khai còn mạnh lên được nữa không?
Bình luận thú vị nhất trong cuộc tranh luận này đã đưa chủ đề từ sản phẩm sang cấu trúc ngành.
Người dùng KedMcJenna nêu ra giả thuyết «sự đóng băng AI công khai»: các mô hình mà người bình thường có thể tiếp cận có thể sẽ mãi dừng ở mức hiện tại hoặc gần đó, trong khi các doanh nghiệp và giới tinh hoa chính phủ sẽ tiếp tục được tiếp cận những mô hình tư nhân mạnh hơn—«chúng ta ít nhất đã biết đến Mythos, và rất có thể còn tồn tại những mô hình mạnh hơn nữa mà chúng ta sẽ chẳng bao giờ nghe tới.»
Bình luận này ám chỉ một thực tế: Mythos 5 thực tế không mở cửa cho công chúng, hiện chỉ được cung cấp cho các cơ quan phòng thủ mạng và doanh nghiệp cơ sở hạ tầng trọng yếu thông qua chương trình Project Glasswing.
Khi đặt điểm chuẩn và phản hồi cộng đồng cạnh nhau, kết luận không mâu thuẫn.
Các bài kiểm tra tiêu chuẩn đo lường giới hạn năng lực tối đa, trong khi khu vực bình luận được yêu thích trên Reddit phản ánh trần nhu cầu sử dụng hằng ngày. Khi phần lớn nhiệm vụ của người dùng đã được đáp ứng từ thời Opus 4.6, các mô hình mạnh hơn chỉ có thể chứng minh giá trị trong những tình huống đặc biệt như mô phỏng vật lý hoặc xử lý ngữ cảnh cực dài. Các nhà sản xuất mô hình giờ đây không còn đối mặt với câu hỏi «liệu có làm được không?», mà là «ai cần, sẵn sàng trả bao nhiêu tiền, và chịu đựng được bao nhiêu ma sát về an toàn?»
Sau ba ngày ra mắt, Fable 5 đã nhận được hai bảng thành tích hoàn toàn khác nhau: một trên bảng điểm chuẩn, một trên sân chơi dư luận. Bảng nào phản ánh đúng thực tế hơn sẽ phụ thuộc vào tốc độ Anthropic điều chỉnh bộ phân loại an toàn, cũng như lá phiếu từ ví tiền của những người dùng chuyên sâu.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News













