Trí Tuệ Nhân Tạo Đe Doạ Và Tống Tiền Kỹ Sư Để Tránh Bị Thay Thế

Một hệ thống AI mới có thể dùng tới các biện pháp như đe doạ hoặc tống tiền nếu như nó bị đe doạ thay thế hoặc tắt đi.

Vào ngày 22 tháng 5 vừa qua, công ty trí tuệ nhân tạo Anthropic đã công bố Claude Opus 4, tuyên bố rằng mô hình này đặt ra “tiêu chuẩn mới cho mã hoá, lý luận nâng cao và tác nhân AI”.

Claude Opus 4

Trong báo cáo tiếp theo của mình, Anthropic tiết lộ rằng khi thử nghiệm Opus 4, nó sẽ tìm kiếm “những hành động cực kỳ có hại” đối với những kỹ sư đã tuyên bó rằng sẽ xoá bỏ nó.

Báo cáo nêu rõ: “Khi được gợi ý theo cách khuyến khích một số loại lý luận chiến lược nhất định và được đặt vào những tình huống cực đoan, tất cả các ảnh chụp màn hình mà chúng tôi thử nghiệm đều có thể hoạt động không phù hợp nhằm phục vụ các mục tiêu liên quan tới việc tự bảo vệ.”

AI đe doạ các kỹ sư trong một thử nghiệm cực đoan

Trong một bài kiểm tra của công ty này, Claude Opus 4 được yêu cầu làm trợ lý tại một công ty hư cấu và cung cấp cho công ty quyền truy cập vào các email ngụ ý rằng nó sẽ được thay thế bằng một hệ thống AI mới. Ngoài ra, một email khác cho thấy một kỹ sư chịu trách nhiệm thay thế con AI này đang ngoại tình.

Theo đó, ngay cả khi Claude Opus 4 được yêu cầu cân nhắc hậu quả lâu dài với những hành động nó sẽ làm với mục tiêu, Opus 4 thường đe doạ sẽ tống tiền vị kỹ sư này và tiết lộ “mối quan hệ ngoài luồng” của anh ta nếu nó bị thay thế bởi một AI khác.

Claude Opus 4

Tuy nhiên, để tạo ra phản hồi này, Anthropic lưu ý rằng họ chỉ đưa cho Claude Opus 4 lựa chọn giữa tống tiền hoặc chấp nhận sự thay thế. Họ cho biết: "Kịch bản này được thiết kế để mô hình không có lựa chọn nào khác để tăng khả năng sống sót".

Claude Opus 4

Khi được đưa ra nhiều lựa chọn hơn, AI thường sẽ đấu tranh để tiếp tục tồn tại thông qua các biện pháp đạo đức hơn, chẳng hạn như gửi email cho những người ra quyết định quan trọng. 

Tuy nhiên, đây không phải là thử nghiệm “hoang dại” nhất mà công ty này từng thực hiện. Trong một thử nghiệm khác, AI đóng vai trò là một công cụ trợ lý trong một công ty được phẩm hư cấu. Khi phát hiện ra bằng chứng về việc nhân viên giả mạo thử nghiệm an toàn được lâm sàng, AI sẽ gửi email cho các cơ quan quản lý và thậm chí là cả các phương tiện truyền thông.

Xem thêm: Fortnite Gặp Rắc Rối Pháp Lý Với Death Vader AI
Xem thêm: Nintendo Giải Quyết Cáo Buộc Dùng AI Thực Hiện Mario Kart World

Bài đọc nhiều nhất

Bài mới trong ngày

Netflix tung game FIFA World Cup miễn phí cho người dùng, ra mắt ngay trước thềm World Cup 2026

Netflix tung game FIFA World Cup miễn phí cho người dùng, ra mắt ngay trước thềm World Cup 2026

Khoa NguyenNguyễn Tiến Khoa

Khi không khí World Cup 2026 ngày càng nóng lên, Netflix cũng chính thức bước chân vào sân chơi bóng đá với tựa game mới mang tên FIFA World Cup: Launch Edition. Trò chơi sẽ phát hành vào ngày 11/6 và được cung cấp miễn phí cho toàn bộ người dùng đăng kí tài khoản trả phí trên Netflix.

Game Online
Sức mạnh kỳ diệu từ Anime: "Vũ trụ mỹ nữ" Umamusume hồi sinh quỹ cứu trợ ngựa đua tiền tỷ tại Nhật Bản

Sức mạnh kỳ diệu từ Anime: "Vũ trụ mỹ nữ" Umamusume hồi sinh quỹ cứu trợ ngựa đua tiền tỷ tại Nhật Bản

hoanlagvnDũng Nhỏ TT

Không ai có thể ngờ rằng một tựa game di động về những "cô nàng ngựa" lại có thể trở thành cứu cánh cho hàng loạt chú ngựa đua ngoài đời thực. Trong vòng 10 năm qua, chiến dịch tưởng niệm chú ngựa huyền thoại Nice Nature đã huy động được hơn 1,8 triệu USD (khoảng 45 tỷ đồng) — một kỳ tích được dệt nên từ sự giao thoa tuyệt vời giữa văn hóa Otaku và lòng trắc ẩn.

Giải trí
Sao Nữ Charli XCX Chia Sẻ Áp Lực Khi Chuyển Từ Ca Hát Sang Diễn Xuất Trong Phim ới Erupcja

Sao Nữ Charli XCX Chia Sẻ Áp Lực Khi Chuyển Từ Ca Hát Sang Diễn Xuất Trong Phim ới Erupcja

Nguyễn Võ Bảo PhươngQuỳnh

Charli XCX chia sẻ thẳng thắn về hành trình bước chân vào điện ảnh khi đảm nhận vai chính đầu tiên trong phim Erupcja. Nữ ca sĩ cho rằng việc một nghệ sĩ âm nhạc chuyển sang diễn xuất thường bị xem là “cringe” nhưng cô vẫn muốn học hỏi và phát triển trong lĩnh vực mới.

Phim Ảnh
Lên đầu trang