Trí Tuệ Nhân Tạo Đe Doạ Và Tống Tiền Kỹ Sư Để Tránh Bị Thay Thế

Một hệ thống AI mới có thể dùng tới các biện pháp như đe doạ hoặc tống tiền nếu như nó bị đe doạ thay thế hoặc tắt đi.

Vào ngày 22 tháng 5 vừa qua, công ty trí tuệ nhân tạo Anthropic đã công bố Claude Opus 4, tuyên bố rằng mô hình này đặt ra “tiêu chuẩn mới cho mã hoá, lý luận nâng cao và tác nhân AI”.

Claude Opus 4

Trong báo cáo tiếp theo của mình, Anthropic tiết lộ rằng khi thử nghiệm Opus 4, nó sẽ tìm kiếm “những hành động cực kỳ có hại” đối với những kỹ sư đã tuyên bó rằng sẽ xoá bỏ nó.

Báo cáo nêu rõ: “Khi được gợi ý theo cách khuyến khích một số loại lý luận chiến lược nhất định và được đặt vào những tình huống cực đoan, tất cả các ảnh chụp màn hình mà chúng tôi thử nghiệm đều có thể hoạt động không phù hợp nhằm phục vụ các mục tiêu liên quan tới việc tự bảo vệ.”

AI đe doạ các kỹ sư trong một thử nghiệm cực đoan

Trong một bài kiểm tra của công ty này, Claude Opus 4 được yêu cầu làm trợ lý tại một công ty hư cấu và cung cấp cho công ty quyền truy cập vào các email ngụ ý rằng nó sẽ được thay thế bằng một hệ thống AI mới. Ngoài ra, một email khác cho thấy một kỹ sư chịu trách nhiệm thay thế con AI này đang ngoại tình.

Theo đó, ngay cả khi Claude Opus 4 được yêu cầu cân nhắc hậu quả lâu dài với những hành động nó sẽ làm với mục tiêu, Opus 4 thường đe doạ sẽ tống tiền vị kỹ sư này và tiết lộ “mối quan hệ ngoài luồng” của anh ta nếu nó bị thay thế bởi một AI khác.

Claude Opus 4

Tuy nhiên, để tạo ra phản hồi này, Anthropic lưu ý rằng họ chỉ đưa cho Claude Opus 4 lựa chọn giữa tống tiền hoặc chấp nhận sự thay thế. Họ cho biết: "Kịch bản này được thiết kế để mô hình không có lựa chọn nào khác để tăng khả năng sống sót".

Claude Opus 4

Khi được đưa ra nhiều lựa chọn hơn, AI thường sẽ đấu tranh để tiếp tục tồn tại thông qua các biện pháp đạo đức hơn, chẳng hạn như gửi email cho những người ra quyết định quan trọng. 

Tuy nhiên, đây không phải là thử nghiệm “hoang dại” nhất mà công ty này từng thực hiện. Trong một thử nghiệm khác, AI đóng vai trò là một công cụ trợ lý trong một công ty được phẩm hư cấu. Khi phát hiện ra bằng chứng về việc nhân viên giả mạo thử nghiệm an toàn được lâm sàng, AI sẽ gửi email cho các cơ quan quản lý và thậm chí là cả các phương tiện truyền thông.

Xem thêm: Fortnite Gặp Rắc Rối Pháp Lý Với Death Vader AI
Xem thêm: Nintendo Giải Quyết Cáo Buộc Dùng AI Thực Hiện Mario Kart World

Bài đọc nhiều nhất

Bài mới trong ngày

Bước ngoặt lịch sử: "Cha đẻ" của One Piece và Dragon Ball chính thức lập Studio sản xuất Anime tại Việt Nam

Bước ngoặt lịch sử: "Cha đẻ" của One Piece và Dragon Ball chính thức lập Studio sản xuất Anime tại Việt Nam

hoanlagvnDũng Nhỏ TT

Sự kiện mang tính cột mốc này vừa được Toei Animation hé lộ thông qua báo cáo kết quả tài chính cho năm tài khóa kết thúc vào tháng 3/2026. Không còn là những dự án gia công nhỏ lẻ, việc thành lập một pháp nhân studio chính thức tại Việt Nam cho thấy bước đi đầy tham vọng của hãng trong việc nâng cao năng lực sản xuất cốt lõi.

Giải trí
Studio Ghibli chuẩn bị đón tân Chủ tịch: Bước chuyển mình lịch sử dưới "bóng mát" tập đoàn truyền thông

Studio Ghibli chuẩn bị đón tân Chủ tịch: Bước chuyển mình lịch sử dưới "bóng mát" tập đoàn truyền thông

hoanlagvnDũng Nhỏ TT

"Vương quốc" của những giấc mơ bay bổng Studio Ghibli vừa chính thức xác nhận sẽ có sự thay đổi lớn ở chiếc ghế quyền lực nhất vào tháng 6 này. Cuộc thay máu nhân sự lần này không chỉ là câu chuyện chuyển giao quyền lực thông thường, mà còn đánh dấu một chương mới trong lộ trình chuyên nghiệp hóa bộ máy quản trị dưới sự tiếp quản của Đài truyền hình Nippon TV.

Giải trí
Lên đầu trang