Trí Tuệ Nhân Tạo Đe Doạ Và Tống Tiền Kỹ Sư Để Tránh Bị Thay Thế

Một hệ thống AI mới có thể dùng tới các biện pháp như đe doạ hoặc tống tiền nếu như nó bị đe doạ thay thế hoặc tắt đi.

Vào ngày 22 tháng 5 vừa qua, công ty trí tuệ nhân tạo Anthropic đã công bố Claude Opus 4, tuyên bố rằng mô hình này đặt ra “tiêu chuẩn mới cho mã hoá, lý luận nâng cao và tác nhân AI”.

Claude Opus 4

Trong báo cáo tiếp theo của mình, Anthropic tiết lộ rằng khi thử nghiệm Opus 4, nó sẽ tìm kiếm “những hành động cực kỳ có hại” đối với những kỹ sư đã tuyên bó rằng sẽ xoá bỏ nó.

Báo cáo nêu rõ: “Khi được gợi ý theo cách khuyến khích một số loại lý luận chiến lược nhất định và được đặt vào những tình huống cực đoan, tất cả các ảnh chụp màn hình mà chúng tôi thử nghiệm đều có thể hoạt động không phù hợp nhằm phục vụ các mục tiêu liên quan tới việc tự bảo vệ.”

AI đe doạ các kỹ sư trong một thử nghiệm cực đoan

Trong một bài kiểm tra của công ty này, Claude Opus 4 được yêu cầu làm trợ lý tại một công ty hư cấu và cung cấp cho công ty quyền truy cập vào các email ngụ ý rằng nó sẽ được thay thế bằng một hệ thống AI mới. Ngoài ra, một email khác cho thấy một kỹ sư chịu trách nhiệm thay thế con AI này đang ngoại tình.

Theo đó, ngay cả khi Claude Opus 4 được yêu cầu cân nhắc hậu quả lâu dài với những hành động nó sẽ làm với mục tiêu, Opus 4 thường đe doạ sẽ tống tiền vị kỹ sư này và tiết lộ “mối quan hệ ngoài luồng” của anh ta nếu nó bị thay thế bởi một AI khác.

Claude Opus 4

Tuy nhiên, để tạo ra phản hồi này, Anthropic lưu ý rằng họ chỉ đưa cho Claude Opus 4 lựa chọn giữa tống tiền hoặc chấp nhận sự thay thế. Họ cho biết: "Kịch bản này được thiết kế để mô hình không có lựa chọn nào khác để tăng khả năng sống sót".

Claude Opus 4

Khi được đưa ra nhiều lựa chọn hơn, AI thường sẽ đấu tranh để tiếp tục tồn tại thông qua các biện pháp đạo đức hơn, chẳng hạn như gửi email cho những người ra quyết định quan trọng.

Tuy nhiên, đây không phải là thử nghiệm “hoang dại” nhất mà công ty này từng thực hiện. Trong một thử nghiệm khác, AI đóng vai trò là một công cụ trợ lý trong một công ty được phẩm hư cấu. Khi phát hiện ra bằng chứng về việc nhân viên giả mạo thử nghiệm an toàn được lâm sàng, AI sẽ gửi email cho các cơ quan quản lý và thậm chí là cả các phương tiện truyền thông.

Xem thêm: Fortnite Gặp Rắc Rối Pháp Lý Với Death Vader AI
Xem thêm: Nintendo Giải Quyết Cáo Buộc Dùng AI Thực Hiện Mario Kart World

Trí Tuệ Nhân Tạo Đe Doạ Và Tống Tiền Kỹ Sư Để Tránh Bị Thay Thế

26/05/2025 15:25

Một hệ thống AI mới có thể dùng tới các biện pháp như đe doạ hoặc tống tiền nếu như nó bị đe doạ thay thế hoặc tắt đi.

AI đe doạ các kỹ sư trong một thử nghiệm cực đoan

Nintendo Switch 2 Sẽ Cho Phép Game Thủ Dùng Chuột Máy Tính

Phát hiện phần mềm máy in Procolored chứa mã độc nguy hiểm, người dùng đối mặt rủi ro mất dữ liệu

CHERRY ra mắt công nghệ công tắc cảm ứng mới, hứa hẹn mở ra kỷ nguyên mới cho bàn phím cơ

iPhone 17 Air gây thất vọng vì dung lượng pin quá thấp

Ứng dụng nào có thể thay thế Telegram sau khi bị chặn tại Việt Nam?

Rò rỉ ảnh thực tế iPhone 17 Air, thiết kế siêu mỏng lấn át iPhone 16 Plus

CORSAIR giới thiệu bộ kit bàn phím MAKR 75 Barebones và CORSAIR Web Hub, hoà trộn hài hoà thế giới bàn phím chơi game hiệu suất cao và bàn phím DIY

Microsoft Cáo Buộc Apple Cản Trở Việc Ra Mắt Cửa Hàng Game Mobile Trên Xbox

Elgato hé lộ chiến lược “Stream Deck Everywhere” tại Computex

“Grow with Unity 2025”: Đồng hành cùng các nhà phát triển game Việt Nam với chiến lược tăng trưởng bền vững

CKTG 2025: Hanwha Life Esports Và G2 Esports Ghi Tên Mình Vào Vòng Tứ Kết

Atari hồi sinh Intellivision Sprint với công nghệ hiện đại và phong cách cổ điển

Microsoft phát hành bản vá khẩn cấp cho Windows 11 sau sự cố khôi phục

Hé Lộ Tin Đồn Resident Evil 0 Remake Chắc Chắn Sẽ Phát Hành, Nhưng Lâu Hơn Dự Đoán

Microsoft để Asus định giá cho Xbox ROG Ally

Ninja Gaiden 4 Chính Thức Đổ Bộ Xbox Game Pass Cùng Một Cái Tên Khác Ra Mắt Sớm

Trí Tuệ Nhân Tạo Đe Doạ Và Tống Tiền Kỹ Sư Để Tránh Bị Thay Thế

26/05/2025 15:25

Một hệ thống AI mới có thể dùng tới các biện pháp như đe doạ hoặc tống tiền nếu như nó bị đe doạ thay thế hoặc tắt đi.

AI đe doạ các kỹ sư trong một thử nghiệm cực đoan

Bài đọc nhiều nhất

One Piece: Oda bật mí thành viên yếu nhất băng Mũ Rơm

Kohei Horikoshi gợi ý “truyền nhân” xứng đáng của My Hero Academia: Kagurabachi

Cái Nhìn Đầu Tiên Về Sylvester Stallone Trẻ Trong Phim Tiểu Sử Rocky Của Amazon

Dragon Ball: Những khoảnh khắc mạnh mẽ nhất của Gohan trên màn ảnh, xếp hạng theo độ “bá đạo”

Bài mới trong ngày

Thông Tin Chi Tiết Về Các Bản Đồ Và Chế Độ Chơi Của Battlefield 6 Mùa 1

Cựu Thành Viên Đội Ngũ Phát Triển God of War Lên Tiếng Về Việc Dùng AI Trong Làm Game

ROG Xbox Ally X chính thức ra mắt: Hiệu năng Linux vượt trội hơn Windows trong thử nghiệm thực tế

CKTG 2025: Hanwha Life Esports Và G2 Esports Ghi Tên Mình Vào Vòng Tứ Kết

Extraction RPG Hành Động Gods, Death, & Reapers Thông Báo Tiết Lộ Chi Tiết Về Giai Đoạn Closed Alpha 4 Vào Tháng 11 Sắp Tới