Các nhà sáng tạo nội dung lên án việc sử dụng video của họ mà không được phép đồng ý, đồng thời cho rằng việc thiếu minh bạch về cách dữ liệu được sử dụng là vi phạm quyền riêng tư và bản quyền.
Các công ty lớn như Apple và Nvidia đang bị cáo buộc đã sử dụng các video trên YouTube không theo quy định để đào tạo AI của mình, theo một báo cáo chung từ Proof News và Wired. Những video từ YouTube, được cho là vi phạm Điều khoản dịch vụ của nền tảng này, đã được sử dụng làm dữ liệu đào tạo cho AI, gây ra mối lo ngại về quyền sở hữu nội dung và sự bảo mật dữ liệu.
Dữ liệu đào tạo này bao gồm "YouTube Subtitles", một tập hợp lớn các bản ghi văn bản của YouTube, với hơn 173.536 bản ghi, trong đó có hơn 12.000 video đã bị xóa kể từ khi tập dữ liệu được tạo vào năm 2020. Các kênh như Crash Course và Philosophy Tube, cùng với các nhân vật nổi tiếng trên YouTube như MrBeast và Pewdiepie, là một số trong số các nguồn nội dung bị ảnh hưởng.
EleutherAI, một tổ chức phi lợi nhuận trong lĩnh vực nghiên cứu AI, đã phát triển tập dữ liệu "The Pile", một kho dữ liệu 800 GB được thiết kế để "dân chủ hóa" công nghệ AI, nhằm cung cấp nguồn tài nguyên cho cộng đồng và không chỉ giới hạn ở các công ty lớn. Tuy nhiên, sự hiện diện của các tập đoàn lớn trong quá trình này đã làm lu mờ mục tiêu ban đầu, với việc sử dụng dữ liệu không được chấp nhận rộng rãi gây ra nhiều tranh cãi.
Các cuộc thảo luận đang diễn ra trong ngành về tính đạo đức của việc sử dụng dữ liệu đào tạo, với câu hỏi liệu các công ty nên chịu trách nhiệm về việc thu thập dữ liệu không phù hợp hoặc không. Trong khi đó, EleutherAI chưa đưa ra bất kỳ bình luận nào về các cáo buộc hoặc hành vi sai trái.
Ngành công nghệ đang phát triển nhanh chóng, đặt ra nhu cầu cao cho phần cứng AI, với ước tính cần đạt 600 tỷ đô la lợi nhuận mỗi năm để đáp ứng. Sự cạnh tranh gay gắt và chi phí liên tục tăng có thể thúc đẩy các hành vi lấy dữ liệu một cách bất hợp pháp, như đã thấy trong trường hợp này và các vụ việc khác như Gemini của Google. Câu hỏi về tính bền vững và đạo đức của việc thu thập dữ liệu cho AI vẫn còn là một chủ đề nóng hổi trong ngành công nghệ hiện nay.