Các mô hình AI không vượt qua các bài kiểm tra về độ chính xác

Nghiên cứu chỉ ra rằng các mô hình AI dường như được lập trình để trả lời mọi câu hỏi bằng mọi giá và hầu hết là bịa đặt.

Các mô hình AI, dù ngày càng phổ biến, vẫn đối mặt với vấn đề lớn về độ chính xác. Hiện tượng “ảo giác” (hallucination) và lan truyền thông tin sai lệch tiếp tục là thách thức dai dẳng cho các nhà phát triển. Một nghiên cứu gần đây từ Trung tâm Tow Center for Digital Journalism đã cung cấp dữ liệu định lượng, xác nhận những nghi ngờ mà người dùng từng thảo luận trong nhiều năm: AI thường “tự tin” đưa ra câu trả lời sai sự thật.

Các mô hình AI không vượt qua các bài kiểm tra về độ chính xác

Trung tâm Tow đã kiểm tra độ chính xác của 8 công cụ tìm kiếm AI hàng đầu, bao gồm ChatGPT Search, Perplexity, Perplexity Pro, Gemini, DeepSeek Search, Grok-2 Search, Grok-3 Search và Copilot. Họ chọn ngẫu nhiên 200 bài báo từ 20 nhà xuất bản tin tức (mỗi nơi 10 bài), đảm bảo các bài này xuất hiện trong top 3 kết quả Google khi tìm kiếm bằng trích dẫn gốc. Sau đó, các công cụ AI được yêu cầu xác định đúng A) tiêu đề bài báo, B) tổ chức tin tức, và C) URL.

Các mô hình AI không vượt qua các bài kiểm tra về độ chính xác  2

Kết quả được phân loại từ “hoàn toàn đúng” đến “hoàn toàn sai”. Dữ liệu cho thấy, ngoại trừ Perplexity và Perplexity Pro, hầu hết các công cụ AI đều hoạt động kém. Tổng cộng, chúng sai tới 60% các truy vấn, và điều đáng lo hơn là sự “tự tin” khi đưa ra câu trả lời sai.

ChatGPT Search trả lời đầy đủ 200 truy vấn, nhưng chỉ đúng hoàn toàn 28% và sai hoàn toàn tới 57%. Grok-3 Search của xAI còn tệ hơn, với tỷ lệ sai lên đến 94%. Copilot của Microsoft từ chối trả lời 104/200 truy vấn, và trong 96 câu trả lời còn lại, chỉ 16 câu “hoàn toàn đúng”, 14 câu “đúng một phần”, còn lại 66 câu “hoàn toàn sai” – tương đương mức không chính xác khoảng 70%.

Các mô hình AI không vượt qua các bài kiểm tra về độ chính xác  3

Nghiên cứu chỉ ra rằng các mô hình AI dường như được lập trình để trả lời mọi câu hỏi bằng mọi giá và hầu hết là bịa đặt. Điều này trùng khớp với nhận xét của Ted Gioia (The Honest Broker) trong bài viết năm 2023, khi ông gọi ChatGPT là “kẻ lừa đảo tài tình” vì tự tin đưa ra thông tin sai, thậm chí tiếp tục “nói dối” khi bị vạch trần.

Điều gây sốc là các công ty đứng sau những công cụ này – tính phí từ 20 USD (Perplexity Pro) đến 200 USD/tháng (ChatGPT Pro) – lại không minh bạch về độ thiếu chính xác. Thậm chí, các phiên bản trả phí như Perplexity Pro và Grok-3 Search tuy trả lời đúng nhiều hơn đôi chút so với bản miễn phí, nhưng tỷ lệ lỗi vẫn cao.

Dù vậy, không phải ai cũng đồng tình với kết quả này. Lance Ulanoff từ TechRadar ca ngợi ChatGPT Search là “nhanh, nhạy và chính xác”, với giao diện không quảng cáo, khiến anh cân nhắc từ bỏ Google. Sự khác biệt trong trải nghiệm cá nhân cho thấy việc đánh giá AI có thể phụ thuộc vào từng trường hợp sử dụng cụ thể.

Bài liên quan

Bài đọc nhiều nhất

Lên đầu trang