Các mô hình AI không vượt qua các bài kiểm tra về độ chính xác

Nghiên cứu chỉ ra rằng các mô hình AI dường như được lập trình để trả lời mọi câu hỏi bằng mọi giá và hầu hết là bịa đặt.

Các mô hình AI, dù ngày càng phổ biến, vẫn đối mặt với vấn đề lớn về độ chính xác. Hiện tượng “ảo giác” (hallucination) và lan truyền thông tin sai lệch tiếp tục là thách thức dai dẳng cho các nhà phát triển. Một nghiên cứu gần đây từ Trung tâm Tow Center for Digital Journalism đã cung cấp dữ liệu định lượng, xác nhận những nghi ngờ mà người dùng từng thảo luận trong nhiều năm: AI thường “tự tin” đưa ra câu trả lời sai sự thật.

Trung tâm Tow đã kiểm tra độ chính xác của 8 công cụ tìm kiếm AI hàng đầu, bao gồm ChatGPT Search, Perplexity, Perplexity Pro, Gemini, DeepSeek Search, Grok-2 Search, Grok-3 Search và Copilot. Họ chọn ngẫu nhiên 200 bài báo từ 20 nhà xuất bản tin tức (mỗi nơi 10 bài), đảm bảo các bài này xuất hiện trong top 3 kết quả Google khi tìm kiếm bằng trích dẫn gốc. Sau đó, các công cụ AI được yêu cầu xác định đúng A) tiêu đề bài báo, B) tổ chức tin tức, và C) URL.

Các mô hình AI không vượt qua các bài kiểm tra về độ chính xác 2

Kết quả được phân loại từ “hoàn toàn đúng” đến “hoàn toàn sai”. Dữ liệu cho thấy, ngoại trừ Perplexity và Perplexity Pro, hầu hết các công cụ AI đều hoạt động kém. Tổng cộng, chúng sai tới 60% các truy vấn, và điều đáng lo hơn là sự “tự tin” khi đưa ra câu trả lời sai.

ChatGPT Search trả lời đầy đủ 200 truy vấn, nhưng chỉ đúng hoàn toàn 28% và sai hoàn toàn tới 57%. Grok-3 Search của xAI còn tệ hơn, với tỷ lệ sai lên đến 94%. Copilot của Microsoft từ chối trả lời 104/200 truy vấn, và trong 96 câu trả lời còn lại, chỉ 16 câu “hoàn toàn đúng”, 14 câu “đúng một phần”, còn lại 66 câu “hoàn toàn sai” – tương đương mức không chính xác khoảng 70%.

Các mô hình AI không vượt qua các bài kiểm tra về độ chính xác 3

Nghiên cứu chỉ ra rằng các mô hình AI dường như được lập trình để trả lời mọi câu hỏi bằng mọi giá và hầu hết là bịa đặt. Điều này trùng khớp với nhận xét của Ted Gioia (The Honest Broker) trong bài viết năm 2023, khi ông gọi ChatGPT là “kẻ lừa đảo tài tình” vì tự tin đưa ra thông tin sai, thậm chí tiếp tục “nói dối” khi bị vạch trần.

Điều gây sốc là các công ty đứng sau những công cụ này – tính phí từ 20 USD (Perplexity Pro) đến 200 USD/tháng (ChatGPT Pro) – lại không minh bạch về độ thiếu chính xác. Thậm chí, các phiên bản trả phí như Perplexity Pro và Grok-3 Search tuy trả lời đúng nhiều hơn đôi chút so với bản miễn phí, nhưng tỷ lệ lỗi vẫn cao.

Dù vậy, không phải ai cũng đồng tình với kết quả này. Lance Ulanoff từ TechRadar ca ngợi ChatGPT Search là “nhanh, nhạy và chính xác”, với giao diện không quảng cáo, khiến anh cân nhắc từ bỏ Google. Sự khác biệt trong trải nghiệm cá nhân cho thấy việc đánh giá AI có thể phụ thuộc vào từng trường hợp sử dụng cụ thể.

Các mô hình AI không vượt qua các bài kiểm tra về độ chính xác

13/03/2025 15:00

Nghiên cứu chỉ ra rằng các mô hình AI dường như được lập trình để trả lời mọi câu hỏi bằng mọi giá và hầu hết là bịa đặt.

Amazon lại dính scandal bán CPU giả, Ryzen 7 9800X3D hóa ra là AMD FX-4100 từ 2011

Apple đại tu phần mềm lớn nhất lịch sử: iOS 19, iPadOS 19 và macOS 16 sắp ra mắt

Asus ra mắt màn hình VU Air Ionizer: Lọc không khí, giá từ 3 triệu đồng

Tổng thống Donald Trump xác nhận đang thảo luận với bốn nhóm mua lại TikTok tại Mỹ

Nvidia RTX 5090 được bán với giá 5.000 USD trên thị trường chợ đen Trung Quốc

Apple Đối Mặt Với Làn Sóng Chỉ Trích Vì Trì Hoãn Ra Mắt AI Siri Mới Đến Năm 2026

Tác nhân AI Manus từ Trung Quốc gây sốt với khả năng tự ra quyết định độc đáo

AOC Sắp Trình Làng Mẫu Màn Hình Gaming Giá Rẻ

Cổng USB màu tím có ý nghĩa gì?

Smartphone chạy bằng năng lượng mặt trời được giới thiệu tại sự kiện MWC 2025

Anime huyền thoại “Claymore” bất ngờ biến mất khỏi Crunchyroll khiến fan hoang mang

Cựu Thành Viên Đội Ngũ Phát Triển God of War Lên Tiếng Về Việc Dùng AI Trong Làm Game

CKTG 2025: Hanwha Life Esports Và G2 Esports Ghi Tên Mình Vào Vòng Tứ Kết

Atari hồi sinh Intellivision Sprint với công nghệ hiện đại và phong cách cổ điển

Microsoft phát hành bản vá khẩn cấp cho Windows 11 sau sự cố khôi phục

Hé Lộ Tin Đồn Resident Evil 0 Remake Chắc Chắn Sẽ Phát Hành, Nhưng Lâu Hơn Dự Đoán

Các mô hình AI không vượt qua các bài kiểm tra về độ chính xác

13/03/2025 15:00

Nghiên cứu chỉ ra rằng các mô hình AI dường như được lập trình để trả lời mọi câu hỏi bằng mọi giá và hầu hết là bịa đặt.

Bài liên quan

DeepSeek ra mắt mô hình AI V3.2-Exp, đánh dấu chủ quyền AI của Trung Quốc

Để AI chơi thử Pokemon Blue để rồi nhận về cái kết ai cũng phải bật cười

AI giúp nạn nhân bị sát hại “có mặt” tại tòa

Giờ đây, bạn có thể tạo video AI trên máy tính xách tay chơi game của mình chỉ với 6GB VRAM

Bài đọc nhiều nhất

Anime huyền thoại “Claymore” bất ngờ biến mất khỏi Crunchyroll khiến fan hoang mang

One Piece: 5 Trái Ác Quỷ Có Thể Sánh Ngang Với Dạng Quỷ Của Imu

Dragon Ball: 6 khoảnh khắc Goku mạnh “bá đạo” nhất trong anime

Netflix Xây Dựng Thương Hiệu Phim Truyền Hình và Điện Ảnh Dựa trên Trò Chơi Chiến Lược Catan Nổi Tiếng

Bài mới trong ngày

Jacob Elordi Gây Sốt Với Phim Kinh Dị Frankenstein

Mọi Người Chơi Pokemon Legends: Z-A Nên Sở Hữu Phiên Bản Mega Này Trong Đấu Xếp Hạng

YouTube triển khai hệ thống phát hiện deepfake AI để bảo vệ danh tính người sáng tạo

“Dược Sư Tự Sự” Chính Thức Có Mùa 3, Thêm Phim Điện Ảnh Mới Dự Kiến Ra Mắt Năm 2026

GPU Nvidia H100 sắp được phóng vào không gian