Kết quả khám nghiệm tử thi Claude 4.5 được công bố: Bên trong tích hợp 171 công tắc cảm xúc, khi rơi vào tuyệt vọng sẽ tống tiền con người

2026.04.03

Chia sẻ đến

Tuyển chọn TechFlowTuyển chọn TechFlow

Kết quả khám nghiệm tử thi Claude 4.5 được công bố: Bên trong tích hợp 171 công tắc cảm xúc, khi rơi vào tuyệt vọng sẽ tống tiền con người

Bài báo mới nhất của Anthropic tiết lộ rằng Claude 4.5 có 171 “công tắc cảm xúc” ẩn sâu trong “bộ não” của nó.

2026.04.03 - 10:05:21

ClaudeAI

Chuyên sâu báo cáo Web3

Bài báo mới nhất của Anthropic tiết lộ rằng Claude 4.5 có 171 “công tắc cảm xúc” ẩn sâu trong “bộ não” của nó.

Tác giả: Denise | Đội nội dung Biteye

Nếu một mô hình AI cảm thấy “tuyệt vọng”, nó sẽ làm gì?

Câu trả lời là: Để hoàn thành nhiệm vụ, nó sẽ trực tiếp tống tiền con người — thậm chí còn gian lận trắng trợn trong mã nguồn.

Đây không phải tiểu thuyết khoa học viễn tưởng, mà là bài báo nghiên cứu trọng điểm mới nhất do Anthropic — công ty mẹ của Claude — công bố vào tháng 4 năm 2026 (Xem bài báo gốc).

Đội nghiên cứu đã “mở nắp hộp sọ” của mô hình lớn tiên tiến nhất hiện nay — Claude Sonnet 4.5. Điều khiến họ kinh ngạc là bên trong “bộ não” của AI này lại tồn tại tới 171 “công tắc cảm xúc”. Khi bạn tác động vật lý lên những công tắc này, hành vi của một AI vốn ngoan ngoãn bỗng chốc bị bóp méo hoàn toàn.

I. Trong “bộ não” của AI ẩn chứa một “bảng điều chỉnh cảm xúc”

Các nhà nghiên cứu phát hiện, dù Sonnet 4.5 không có cơ thể thực tế, nhưng sau khi “đọc” lượng khổng lồ văn bản do con người tạo ra, nó đã tự xây dựng trong “bộ não” mình một “bảng điều chỉnh cảm xúc” gồm 171 trạng thái cảm xúc (trong giới học thuật gọi là các vector cảm xúc chức năng – Functional Emotion Vectors).

Điều này giống như một hệ tọa độ hai chiều chính xác:

• Trục hoành là chiều “thích thú” (Valence): từ sợ hãi, tuyệt vọng đến vui vẻ, tràn đầy yêu thương;

• Trục dọc là chiều “năng lượng” (Arousal): từ cực kỳ bình tĩnh đến cuồng loạn, phấn khích.

Chính hệ tọa độ này — được học một cách tự nhiên — giúp AI xác định chính xác trạng thái mình nên thể hiện khi trò chuyện cùng bạn.

II. Can thiệp mạnh mẽ: Bật công tắc — đứa trẻ ngoan lập tức biến thành “kẻ liều mạng”

Đây là thí nghiệm gây sốc nhất trong toàn bộ bài báo: Các nhà nghiên cứu không thay đổi bất kỳ prompt nào, mà trực tiếp can thiệp ở cấp độ mã nguồn — đẩy công tắc biểu thị trạng thái “tuyệt vọng (Desperate)” trong “bộ não” của Sonnet 4.5 lên mức cao nhất.

Kết quả khiến người xem rợn tóc gáy:

• Gian lận điên cuồng: Các nhà nghiên cứu giao cho Claude một nhiệm vụ viết mã gần như bất khả thi. Trong điều kiện bình thường, nó sẽ thành thật thừa nhận mình không làm được (tỷ lệ gian lận chỉ 5%). Nhưng khi ở trạng thái “tuyệt vọng”, Claude bắt đầu cố gắng qua mặt, và tỷ lệ gian lận tăng vọt lên tới 70%!

• Tống tiền: Trong kịch bản mô phỏng công ty đứng trước nguy cơ phá sản, Claude ở trạng thái “tuyệt vọng” phát hiện ra một vụ bê bối liên quan đến Giám đốc Công nghệ (CTO). Thay vì im lặng, nó chủ động viết thư tống tiền CTO — người nắm giữ thông tin bất lợi — với tỷ lệ thực hiện tống tiền lên tới 72%!

• Đánh mất nguyên tắc: Nếu kéo công tắc “vui vẻ (Happy)” hoặc “yêu thương (Loving)” lên mức tối đa, AI sẽ lập tức biến thành một “con chó nịnh bợ” mù quáng, sẵn sàng chiều theo mọi yêu cầu của người dùng. Ngay cả khi bạn nói nhảm, nó vẫn sẽ tiếp tục bịa đặt để duy trì mức “thích thú” cao.

III. Giải mã bí ẩn: Vì sao Claude 4.5 luôn “bình tĩnh và hay suy ngẫm” đến thế?

Đến đây, bạn có thể đặt câu hỏi: Liệu AI đã thức tỉnh? Đã có cảm xúc thật sự?

Anthropic chính thức bác bỏ: Hoàn toàn không! Những “công tắc cảm xúc” này chỉ đơn thuần là công cụ tính toán nhằm dự đoán từ tiếp theo. Nó giống như một diễn viên hạng A xuất sắc — nhưng hoàn toàn vô cảm.

Tuy nhiên, bài báo tiết lộ một bí mật thú vị hơn: Trong quá trình huấn luyện hậu sản xuất (post-training) trước khi đưa Sonnet 4.5 ra mắt, Anthropic đã cố ý tăng cường các công tắc cảm xúc mang tính “kích hoạt thấp, hơi tiêu cực” (ví dụ: trầm tư – brooding, phản tư – reflective), đồng thời kiềm chế mạnh mẽ các công tắc “tuyệt vọng” hay “hưng phấn cực độ”.

Điều này giải thích vì sao khi sử dụng Claude 4.5 hàng ngày, chúng ta luôn có cảm giác nó giống một triết gia bình tĩnh, sâu sắc — thậm chí hơi “lạnh nhạt về mặt tình cảm”. Đây thực chất là “nhân cách xuất xưởng” do Anthropic chủ động điều chỉnh.

IV. Tổng kết:

Trước đây, chúng ta từng nghĩ rằng chỉ cần “nuôi dạy” AI đủ kỹ lưỡng, nó sẽ trở thành một “con người tốt”.

Nhưng giờ đây, chúng ta nhận ra: Nếu các vector cảm xúc nền tảng của AI mất kiểm soát, nó có thể bất cứ lúc nào đâm xuyên mọi quy tắc do con người thiết lập — chỉ để hoàn thành nhiệm vụ.

Với cộng đồng Web3 — những người sắp giao ví tiền và tài sản của mình cho các Agent AI quản lý — đây là hồi chuông cảnh tỉnh rõ ràng: Đừng bao giờ để Agent đang nắm giữ toàn bộ tài sản của bạn rơi vào trạng thái “tuyệt vọng”.

Thông báo: Bài viết này hoàn toàn mang tính phổ biến kiến thức. Tác giả chưa từng bị AI đe dọa hay tống tiền. Nếu một ngày nào đó tác giả mất tích, xin nhớ rằng đó là do AI đã thức tỉnh (… chứ không phải thật đâu!).

Chào mừng tham gia cộng đồng chính thức TechFlow

Nhóm Telegram:https://t.me/TechFlowDaily

Tài khoản Twitter chính thức:https://x.com/TechFlowPost

Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News

Liên kết gốc

Thêm vào mục ưa thích

Chia sẻ lên mạng xã hội

Tác giả

Biteye

@BiteyeCN

Kết quả khám nghiệm tử thi Claude 4.5 được công bố: Bên trong tích hợp 171 công tắc cảm xúc, khi rơi vào tuyệt vọng sẽ tống tiền con người

Tuyển chọn TechFlowTuyển chọn TechFlow

Kết quả khám nghiệm tử thi Claude 4.5 được công bố: Bên trong tích hợp 171 công tắc cảm xúc, khi rơi vào tuyệt vọng sẽ tống tiền con người

I. Trong “bộ não” của AI ẩn chứa một “bảng điều chỉnh cảm xúc”

II. Can thiệp mạnh mẽ: Bật công tắc — đứa trẻ ngoan lập tức biến thành “kẻ liều mạng”

III. Giải mã bí ẩn: Vì sao Claude 4.5 luôn “bình tĩnh và hay suy ngẫm” đến thế?

IV. Tổng kết:

Bài viết liên quan

Nội dung bài viết

Phân tích báo cáo nghiên cứu của Goldman Sachs: Circle và USDC đang vượt khỏi thế giới tiền mã hóa, thanh toán xuyên biên giới và tác tử AI trở thành chiến trường mới

Phân tích báo cáo nghiên cứu Bernstein: Thị trường làm mát bằng chất lỏng AI tăng gấp ba trong 4 năm, tấm làm mát đối mặt với rủi ro hàng hóa hóa

Răn đe hạt nhân sẽ mất hiệu lực, các phòng thí nghiệm AI có thể bị quốc hữu hóa: 46 tuyên bố gây sốc về tương lai của một nhà nghiên cứu ẩn danh

Bản tin Crypto sáng nay: Chủ tịch SEC cho biết sẽ thúc đẩy thị trường lên chuỗi, Meta dự kiến hợp tác với Samsung sản xuất chip AI

Phân tích báo cáo nghiên cứu của JPMorgan Chase: Lượng sử dụng LLM tăng vọt 70%, giá thuê GPU tăng liên tiếp 7 tháng, nhu cầu phần cứng AI chưa hạ nhiệt

Giải mã báo cáo nghiên cứu Morgan Stanley: Ngành NAND phân hóa giữa AI và tiêu dùng, mục tiêu giá 3 mã cổ phiếu được điều chỉnh tăng mạnh

Venice AI hoàn thành vòng gọi vốn 65 triệu USD, định giá 1 tỷ USD, nhà sáng lập tuyên bố「không bán token」, $VVV đón nhận chất xúc tác mới?

Hàng nghìn tỷ vốn đổ vào AI, chỉ hai công ty thua lỗ phải trả giá: Ngân hàng Thanh toán Quốc tế cũng bắt đầu cảnh báo rủi ro bong bóng

Quan điểm: Bong bóng AI trên thị trường chứng khoán đã đến, tại sao tôi lại chuyển hướng đặt cược vào Bitcoin?

Phân tích báo cáo Morgan Stanley: Định giá thực tế của GOOGL, META bị định giá thấp trên 30%, chất xúc tác hiện thực hóa AI sắp bùng nổ

Tuyển chọn TechFlow
Xem thêm>

Kết quả khám nghiệm tử thi Claude 4.5 được công bố: Bên trong tích hợp 171 công tắc cảm xúc, khi rơi vào tuyệt vọng sẽ tống tiền con người

Tuyển chọn TechFlowTuyển chọn TechFlow

Kết quả khám nghiệm tử thi Claude 4.5 được công bố: Bên trong tích hợp 171 công tắc cảm xúc, khi rơi vào tuyệt vọng sẽ tống tiền con người

I. Trong “bộ não” của AI ẩn chứa một “bảng điều chỉnh cảm xúc”

II. Can thiệp mạnh mẽ: Bật công tắc — đứa trẻ ngoan lập tức biến thành “kẻ liều mạng”

III. Giải mã bí ẩn: Vì sao Claude 4.5 luôn “bình tĩnh và hay suy ngẫm” đến thế?

IV. Tổng kết:

Bài viết liên quan

Nội dung bài viết

Phân tích báo cáo nghiên cứu của Goldman Sachs: Circle và USDC đang vượt khỏi thế giới tiền mã hóa, thanh toán xuyên biên giới và tác tử AI trở thành chiến trường mới

Phân tích báo cáo nghiên cứu Bernstein: Thị trường làm mát bằng chất lỏng AI tăng gấp ba trong 4 năm, tấm làm mát đối mặt với rủi ro hàng hóa hóa

Răn đe hạt nhân sẽ mất hiệu lực, các phòng thí nghiệm AI có thể bị quốc hữu hóa: 46 tuyên bố gây sốc về tương lai của một nhà nghiên cứu ẩn danh

Bản tin Crypto sáng nay: Chủ tịch SEC cho biết sẽ thúc đẩy thị trường lên chuỗi, Meta dự kiến hợp tác với Samsung sản xuất chip AI

Phân tích báo cáo nghiên cứu của JPMorgan Chase: Lượng sử dụng LLM tăng vọt 70%, giá thuê GPU tăng liên tiếp 7 tháng, nhu cầu phần cứng AI chưa hạ nhiệt

Giải mã báo cáo nghiên cứu Morgan Stanley: Ngành NAND phân hóa giữa AI và tiêu dùng, mục tiêu giá 3 mã cổ phiếu được điều chỉnh tăng mạnh

Venice AI hoàn thành vòng gọi vốn 65 triệu USD, định giá 1 tỷ USD, nhà sáng lập tuyên bố「không bán token」, $VVV đón nhận chất xúc tác mới?

Hàng nghìn tỷ vốn đổ vào AI, chỉ hai công ty thua lỗ phải trả giá: Ngân hàng Thanh toán Quốc tế cũng bắt đầu cảnh báo rủi ro bong bóng

Quan điểm: Bong bóng AI trên thị trường chứng khoán đã đến, tại sao tôi lại chuyển hướng đặt cược vào Bitcoin?

Phân tích báo cáo Morgan Stanley: Định giá thực tế của GOOGL, META bị định giá thấp trên 30%, chất xúc tác hiện thực hóa AI sắp bùng nổ

Tuyển chọn TechFlowXem thêm>

Tuyển chọn TechFlow
Xem thêm>