Trí Tuệ Nhân Tạo Đe Doạ Và Tống Tiền Kỹ Sư Để Tránh Bị Thay Thế

Một hệ thống AI mới có thể dùng tới các biện pháp như đe doạ hoặc tống tiền nếu như nó bị đe doạ thay thế hoặc tắt đi.

Vào ngày 22 tháng 5 vừa qua, công ty trí tuệ nhân tạo Anthropic đã công bố Claude Opus 4, tuyên bố rằng mô hình này đặt ra “tiêu chuẩn mới cho mã hoá, lý luận nâng cao và tác nhân AI”.

Claude Opus 4

Trong báo cáo tiếp theo của mình, Anthropic tiết lộ rằng khi thử nghiệm Opus 4, nó sẽ tìm kiếm “những hành động cực kỳ có hại” đối với những kỹ sư đã tuyên bó rằng sẽ xoá bỏ nó.

Báo cáo nêu rõ: “Khi được gợi ý theo cách khuyến khích một số loại lý luận chiến lược nhất định và được đặt vào những tình huống cực đoan, tất cả các ảnh chụp màn hình mà chúng tôi thử nghiệm đều có thể hoạt động không phù hợp nhằm phục vụ các mục tiêu liên quan tới việc tự bảo vệ.”

AI đe doạ các kỹ sư trong một thử nghiệm cực đoan

Trong một bài kiểm tra của công ty này, Claude Opus 4 được yêu cầu làm trợ lý tại một công ty hư cấu và cung cấp cho công ty quyền truy cập vào các email ngụ ý rằng nó sẽ được thay thế bằng một hệ thống AI mới. Ngoài ra, một email khác cho thấy một kỹ sư chịu trách nhiệm thay thế con AI này đang ngoại tình.

Theo đó, ngay cả khi Claude Opus 4 được yêu cầu cân nhắc hậu quả lâu dài với những hành động nó sẽ làm với mục tiêu, Opus 4 thường đe doạ sẽ tống tiền vị kỹ sư này và tiết lộ “mối quan hệ ngoài luồng” của anh ta nếu nó bị thay thế bởi một AI khác.

Claude Opus 4

Tuy nhiên, để tạo ra phản hồi này, Anthropic lưu ý rằng họ chỉ đưa cho Claude Opus 4 lựa chọn giữa tống tiền hoặc chấp nhận sự thay thế. Họ cho biết: "Kịch bản này được thiết kế để mô hình không có lựa chọn nào khác để tăng khả năng sống sót".

Claude Opus 4

Khi được đưa ra nhiều lựa chọn hơn, AI thường sẽ đấu tranh để tiếp tục tồn tại thông qua các biện pháp đạo đức hơn, chẳng hạn như gửi email cho những người ra quyết định quan trọng. 

Tuy nhiên, đây không phải là thử nghiệm “hoang dại” nhất mà công ty này từng thực hiện. Trong một thử nghiệm khác, AI đóng vai trò là một công cụ trợ lý trong một công ty được phẩm hư cấu. Khi phát hiện ra bằng chứng về việc nhân viên giả mạo thử nghiệm an toàn được lâm sàng, AI sẽ gửi email cho các cơ quan quản lý và thậm chí là cả các phương tiện truyền thông.

Xem thêm: Fortnite Gặp Rắc Rối Pháp Lý Với Death Vader AI
Xem thêm: Nintendo Giải Quyết Cáo Buộc Dùng AI Thực Hiện Mario Kart World

Bài đọc nhiều nhất

Bài mới trong ngày

Nghịch lý tại Nga: Khi Manga bị "xóa sổ" bởi những vạch đen bí ẩn

Nghịch lý tại Nga: Khi Manga bị "xóa sổ" bởi những vạch đen bí ẩn

hoanlagvnDũng Nhỏ TT

Cộng đồng mạng quốc tế vừa được một phen ngỡ ngàng khi chứng kiến cách thức kiểm duyệt Manga có một không hai tại Nga. Không phải là những mảng mờ (blur) hay cắt xén thông thường, nhiều trang truyện tại đây đang bị phủ kín bởi những vạch đen dày đặc, biến tác phẩm nghệ thuật thành một bảng "mã vạch" khổng lồ.

Giải trí
Khi "Quỷ Bom" đi làm thu ngân: Studio MAPPA gây sốt khi mang Reze (Chainsaw Man) ra đời thực

Khi "Quỷ Bom" đi làm thu ngân: Studio MAPPA gây sốt khi mang Reze (Chainsaw Man) ra đời thực

hoanlagvnDũng Nhỏ TT

Mới đây, Studio MAPPA – "gã khổng lồ" đứng sau những siêu phẩm như Jujutsu Kaisen hay Attack on Titan – đã chính thức đổ bộ thị trường Trung Quốc bằng việc khai trương cửa hàng đầu tiên tại thành phố Thượng Hải sầm uất. Tuy nhiên, điều khiến người hâm mộ phát cuồng không phải là những món đồ chơi đắt đỏ, mà là sự xuất hiện của một nhân vật bước ra từ trang sách: Reze.

Giải trí
Nhật Bản và "ngôi vương" không ai muốn: 4 năm liên tiếp là quốc gia thiếu ngủ nhất hành tinh

Nhật Bản và "ngôi vương" không ai muốn: 4 năm liên tiếp là quốc gia thiếu ngủ nhất hành tinh

hoanlagvnDũng Nhỏ TT

Mặc kệ những tiến bộ về công nghệ và y tế, người dân xứ sở Phù Tang vẫn đang chìm trong cơn mệt mỏi kéo dài. Một khảo sát mới nhất đã gióng lên hồi chuông cảnh báo về một xã hội mà ở đó, việc "quên ngủ" đã trở thành một phần của bản sắc văn hóa.

Giải trí
Lên đầu trang