Kho dữ liệu lớn để đào tạo AI bị phát hiện chứa hơn 3.200 hình ảnh lạm dụng tình dục trẻ em

Những phát hiện này làm tăng thêm lo ngại rằng các công cụ AI có thể gây ra làn sóng nội dung lạm dụng tình dục trẻ em do AI tạo ra.

Một lượng lớn chứa hàng nghìn hình ảnh bị nghi ngờ là lạm dụng tình dục trẻ em bị phát hiện sử dụng để đào tạo các trình tạo hình ảnh AI.

Theo BI, một cuộc điều tra của Trung tâm Chính sách Mạng của Đại học Stanford đã phát hiện ra rằng cơ sở dữ liệu LAION-5B, được sử dụng để đào tạo một số trình tạo hình ảnh AI bao gồm Stable Diffusion, chứa hơn 3.200 hình ảnh bị nghi ngờ là lạm dụng trẻ em.

Kho dữ liệu lớn để đào tạo AI bị phát hiện chứa hơn 3.200 hình ảnh lạm dụng tình dục trẻ em

Chỉ hơn 1.000 hình ảnh trong số đó được xác nhận là tài liệu lạm dụng tình dục trẻ em, với báo cáo cảnh báo rằng sự hiện diện của chúng trong tập dữ liệu có thể cho phép sử dụng các công cụ AI tổng hợp được xây dựng trên dữ liệu này để tạo nội dung lạm dụng trẻ em mới.

LAION-5B là kho lưu trữ công cộng khổng lồ gồm khoảng 5 tỷ hình ảnh được lấy từ web mở. Kho dữ liệu này được nhiều công ty AI sử dụng, vốn yêu cầu dữ liệu khổng lồ để đào tạo các mô hình AI tổng hợp cho ra những bức ảnh mới chỉ trong vài giây.

Kho dữ liệu lớn để đào tạo AI bị phát hiện chứa hơn 3.200 hình ảnh lạm dụng tình dục trẻ em

Các chuyên gia từ lâu đã cảnh báo rằng các công cụ tạo hình ảnh AI có thể bị lạm dụng để tạo ra hàng tỷ bức ảnh liên quan đến tình dục trẻ em siêu thực với Tổ chức Theo dõi Internet (IWF) cảnh báo rằng những hình ảnh đội truỳ này sẽ được lưu hành rộng rãi trên web đen.

Theo dữ liệu từ Graphika, các ứng dụng AI sử dụng công nghệ tương tự để "lột đồ" phụ nữ trong ảnh bằng cách tạo ra hình ảnh khỏa thân giả của họ đang gây tranh cãi trong những ngày gần đây.

Stable Diffusion là mô hình nổi tiếng nhất sử dụng cơ sở dữ liệu LAION. Công cụ này được phát triển bởi công ty Stability AI có trụ sở tại Anh, đã trở thành một trong những công cụ tạo hình ảnh phổ biến nhất kể từ khi ra mắt vào năm 2022.

Kho dữ liệu lớn để đào tạo AI bị phát hiện chứa hơn 3.200 hình ảnh lạm dụng tình dục trẻ em

Công ty đã phát hành Stable Diffusion 2.0, có các biện pháp kiểm soát chặt chẽ hơn đối với nội dung khiêu dâm vào năm ngoái, nhưng phiên bản 1.5, tạo ra nội dung đồi truỵ vẫn có sẵn trên web mở.

Trước đó, nhóm khoa học Stanford cũng đã phát hiện LAION-400M, phiên bản trước của 5B có chứa "hình ảnh đồi truỵ, lời nói thô tục và sai lệch", đã được Google sử dụng để đào tạo phiên bản đầu tiên của tính năng chuyển văn bản thành hình ảnh của mình. trình tạo hình ảnh. Hiện tại, Google đã ngừng sử dụng bộ dữ liệu LAION .