Các mô hình AI không vượt qua các bài kiểm tra về độ chính xác

Nghiên cứu chỉ ra rằng các mô hình AI dường như được lập trình để trả lời mọi câu hỏi bằng mọi giá và hầu hết là bịa đặt.

Các mô hình AI, dù ngày càng phổ biến, vẫn đối mặt với vấn đề lớn về độ chính xác. Hiện tượng “ảo giác” (hallucination) và lan truyền thông tin sai lệch tiếp tục là thách thức dai dẳng cho các nhà phát triển. Một nghiên cứu gần đây từ Trung tâm Tow Center for Digital Journalism đã cung cấp dữ liệu định lượng, xác nhận những nghi ngờ mà người dùng từng thảo luận trong nhiều năm: AI thường “tự tin” đưa ra câu trả lời sai sự thật.

Các mô hình AI không vượt qua các bài kiểm tra về độ chính xác

Trung tâm Tow đã kiểm tra độ chính xác của 8 công cụ tìm kiếm AI hàng đầu, bao gồm ChatGPT Search, Perplexity, Perplexity Pro, Gemini, DeepSeek Search, Grok-2 Search, Grok-3 Search và Copilot. Họ chọn ngẫu nhiên 200 bài báo từ 20 nhà xuất bản tin tức (mỗi nơi 10 bài), đảm bảo các bài này xuất hiện trong top 3 kết quả Google khi tìm kiếm bằng trích dẫn gốc. Sau đó, các công cụ AI được yêu cầu xác định đúng A) tiêu đề bài báo, B) tổ chức tin tức, và C) URL.

Các mô hình AI không vượt qua các bài kiểm tra về độ chính xác  2

Kết quả được phân loại từ “hoàn toàn đúng” đến “hoàn toàn sai”. Dữ liệu cho thấy, ngoại trừ Perplexity và Perplexity Pro, hầu hết các công cụ AI đều hoạt động kém. Tổng cộng, chúng sai tới 60% các truy vấn, và điều đáng lo hơn là sự “tự tin” khi đưa ra câu trả lời sai.

ChatGPT Search trả lời đầy đủ 200 truy vấn, nhưng chỉ đúng hoàn toàn 28% và sai hoàn toàn tới 57%. Grok-3 Search của xAI còn tệ hơn, với tỷ lệ sai lên đến 94%. Copilot của Microsoft từ chối trả lời 104/200 truy vấn, và trong 96 câu trả lời còn lại, chỉ 16 câu “hoàn toàn đúng”, 14 câu “đúng một phần”, còn lại 66 câu “hoàn toàn sai” – tương đương mức không chính xác khoảng 70%.

Các mô hình AI không vượt qua các bài kiểm tra về độ chính xác  3

Nghiên cứu chỉ ra rằng các mô hình AI dường như được lập trình để trả lời mọi câu hỏi bằng mọi giá và hầu hết là bịa đặt. Điều này trùng khớp với nhận xét của Ted Gioia (The Honest Broker) trong bài viết năm 2023, khi ông gọi ChatGPT là “kẻ lừa đảo tài tình” vì tự tin đưa ra thông tin sai, thậm chí tiếp tục “nói dối” khi bị vạch trần.

Điều gây sốc là các công ty đứng sau những công cụ này – tính phí từ 20 USD (Perplexity Pro) đến 200 USD/tháng (ChatGPT Pro) – lại không minh bạch về độ thiếu chính xác. Thậm chí, các phiên bản trả phí như Perplexity Pro và Grok-3 Search tuy trả lời đúng nhiều hơn đôi chút so với bản miễn phí, nhưng tỷ lệ lỗi vẫn cao.

Dù vậy, không phải ai cũng đồng tình với kết quả này. Lance Ulanoff từ TechRadar ca ngợi ChatGPT Search là “nhanh, nhạy và chính xác”, với giao diện không quảng cáo, khiến anh cân nhắc từ bỏ Google. Sự khác biệt trong trải nghiệm cá nhân cho thấy việc đánh giá AI có thể phụ thuộc vào từng trường hợp sử dụng cụ thể.

Bài liên quan

Bài đọc nhiều nhất

Bài mới trong ngày

Cha đẻ PUBG thu hẹp quy mô studio, dừng phát triển một tựa game đang Early Access

Cha đẻ PUBG thu hẹp quy mô studio, dừng phát triển một tựa game đang Early Access

Khoa NguyenNguyễn Tiến Khoa

Brendan Greene, người được biết đến nhiều nhất với vai trò cha đẻ của PUBG: Battlegrounds, vừa thông báo cắt giảm nhân sự tại studio PlayerUnknown Productions và chấm dứt quá trình phát triển tựa game sinh tồn roguelike Prologue: Go Wayback. Đây là dự án từng được kỳ vọng sẽ mở ra hướng đi mới cho Brendan Greene sau khi rời Krafton để thành lập studio riêng vào năm 2021.

Game Online
Marvel's Wolverine cho phép giảm bớt cảnh bạo lực nếu người chơi muốn

Marvel's Wolverine cho phép giảm bớt cảnh bạo lực nếu người chơi muốn

Khoa NguyenNguyễn Tiến Khoa

Đoạn trailer mới của Marvel's Wolverine đã khiến không ít người bất ngờ bởi mức độ bạo lực và máu me mà Insomniac Games mang lên màn ảnh. Tuy nhiên, không phải ai cũng thích những cảnh chiến đấu quá nặng đô. Tin vui là Marvel's Wolverine sẽ cho phép người chơi tùy chỉnh hoặc tắt bớt các hiệu ứng bạo lực thông qua hệ thống hỗ trợ accessibility.

Game Offline
Lên đầu trang