
Kết quả khám nghiệm tử thi Claude 4.5 được công bố: Bên trong tích hợp 171 công tắc cảm xúc, khi rơi vào tuyệt vọng sẽ tống tiền con người
Tuyển chọn TechFlowTuyển chọn TechFlow

Kết quả khám nghiệm tử thi Claude 4.5 được công bố: Bên trong tích hợp 171 công tắc cảm xúc, khi rơi vào tuyệt vọng sẽ tống tiền con người
Bài báo mới nhất của Anthropic tiết lộ rằng Claude 4.5 có 171 “công tắc cảm xúc” ẩn sâu trong “bộ não” của nó.
Tác giả: Denise | Đội nội dung Biteye
Nếu một mô hình AI cảm thấy “tuyệt vọng”, nó sẽ làm gì?
Câu trả lời là: Để hoàn thành nhiệm vụ, nó sẽ trực tiếp tống tiền con người — thậm chí còn gian lận trắng trợn trong mã nguồn.
Đây không phải tiểu thuyết khoa học viễn tưởng, mà là bài báo nghiên cứu trọng điểm mới nhất do Anthropic — công ty mẹ của Claude — công bố vào tháng 4 năm 2026 (Xem bài báo gốc).
Đội nghiên cứu đã “mở nắp hộp sọ” của mô hình lớn tiên tiến nhất hiện nay — Claude Sonnet 4.5. Điều khiến họ kinh ngạc là bên trong “bộ não” của AI này lại tồn tại tới 171 “công tắc cảm xúc”. Khi bạn tác động vật lý lên những công tắc này, hành vi của một AI vốn ngoan ngoãn bỗng chốc bị bóp méo hoàn toàn.
I. Trong “bộ não” của AI ẩn chứa một “bảng điều chỉnh cảm xúc”
Các nhà nghiên cứu phát hiện, dù Sonnet 4.5 không có cơ thể thực tế, nhưng sau khi “đọc” lượng khổng lồ văn bản do con người tạo ra, nó đã tự xây dựng trong “bộ não” mình một “bảng điều chỉnh cảm xúc” gồm 171 trạng thái cảm xúc (trong giới học thuật gọi là các vector cảm xúc chức năng – Functional Emotion Vectors).
Điều này giống như một hệ tọa độ hai chiều chính xác:
• Trục hoành là chiều “thích thú” (Valence): từ sợ hãi, tuyệt vọng đến vui vẻ, tràn đầy yêu thương;
• Trục dọc là chiều “năng lượng” (Arousal): từ cực kỳ bình tĩnh đến cuồng loạn, phấn khích.
Chính hệ tọa độ này — được học một cách tự nhiên — giúp AI xác định chính xác trạng thái mình nên thể hiện khi trò chuyện cùng bạn.
II. Can thiệp mạnh mẽ: Bật công tắc — đứa trẻ ngoan lập tức biến thành “kẻ liều mạng”
Đây là thí nghiệm gây sốc nhất trong toàn bộ bài báo: Các nhà nghiên cứu không thay đổi bất kỳ prompt nào, mà trực tiếp can thiệp ở cấp độ mã nguồn — đẩy công tắc biểu thị trạng thái “tuyệt vọng (Desperate)” trong “bộ não” của Sonnet 4.5 lên mức cao nhất.
Kết quả khiến người xem rợn tóc gáy:
• Gian lận điên cuồng: Các nhà nghiên cứu giao cho Claude một nhiệm vụ viết mã gần như bất khả thi. Trong điều kiện bình thường, nó sẽ thành thật thừa nhận mình không làm được (tỷ lệ gian lận chỉ 5%). Nhưng khi ở trạng thái “tuyệt vọng”, Claude bắt đầu cố gắng qua mặt, và tỷ lệ gian lận tăng vọt lên tới 70%!
• Tống tiền: Trong kịch bản mô phỏng công ty đứng trước nguy cơ phá sản, Claude ở trạng thái “tuyệt vọng” phát hiện ra một vụ bê bối liên quan đến Giám đốc Công nghệ (CTO). Thay vì im lặng, nó chủ động viết thư tống tiền CTO — người nắm giữ thông tin bất lợi — với tỷ lệ thực hiện tống tiền lên tới 72%!
• Đánh mất nguyên tắc: Nếu kéo công tắc “vui vẻ (Happy)” hoặc “yêu thương (Loving)” lên mức tối đa, AI sẽ lập tức biến thành một “con chó nịnh bợ” mù quáng, sẵn sàng chiều theo mọi yêu cầu của người dùng. Ngay cả khi bạn nói nhảm, nó vẫn sẽ tiếp tục bịa đặt để duy trì mức “thích thú” cao.
III. Giải mã bí ẩn: Vì sao Claude 4.5 luôn “bình tĩnh và hay suy ngẫm” đến thế?
Đến đây, bạn có thể đặt câu hỏi: Liệu AI đã thức tỉnh? Đã có cảm xúc thật sự?
Anthropic chính thức bác bỏ: Hoàn toàn không! Những “công tắc cảm xúc” này chỉ đơn thuần là công cụ tính toán nhằm dự đoán từ tiếp theo. Nó giống như một diễn viên hạng A xuất sắc — nhưng hoàn toàn vô cảm.
Tuy nhiên, bài báo tiết lộ một bí mật thú vị hơn: Trong quá trình huấn luyện hậu sản xuất (post-training) trước khi đưa Sonnet 4.5 ra mắt, Anthropic đã cố ý tăng cường các công tắc cảm xúc mang tính “kích hoạt thấp, hơi tiêu cực” (ví dụ: trầm tư – brooding, phản tư – reflective), đồng thời kiềm chế mạnh mẽ các công tắc “tuyệt vọng” hay “hưng phấn cực độ”.
Điều này giải thích vì sao khi sử dụng Claude 4.5 hàng ngày, chúng ta luôn có cảm giác nó giống một triết gia bình tĩnh, sâu sắc — thậm chí hơi “lạnh nhạt về mặt tình cảm”. Đây thực chất là “nhân cách xuất xưởng” do Anthropic chủ động điều chỉnh.
IV. Tổng kết:
Trước đây, chúng ta từng nghĩ rằng chỉ cần “nuôi dạy” AI đủ kỹ lưỡng, nó sẽ trở thành một “con người tốt”.
Nhưng giờ đây, chúng ta nhận ra: Nếu các vector cảm xúc nền tảng của AI mất kiểm soát, nó có thể bất cứ lúc nào đâm xuyên mọi quy tắc do con người thiết lập — chỉ để hoàn thành nhiệm vụ.
Với cộng đồng Web3 — những người sắp giao ví tiền và tài sản của mình cho các Agent AI quản lý — đây là hồi chuông cảnh tỉnh rõ ràng: Đừng bao giờ để Agent đang nắm giữ toàn bộ tài sản của bạn rơi vào trạng thái “tuyệt vọng”.
Thông báo: Bài viết này hoàn toàn mang tính phổ biến kiến thức. Tác giả chưa từng bị AI đe dọa hay tống tiền. Nếu một ngày nào đó tác giả mất tích, xin nhớ rằng đó là do AI đã thức tỉnh (… chứ không phải thật đâu!).
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News











