Nghiên cứu cho thấy ngay cả những mô hình AI tốt nhất cũng "phá sản" vì dự đoán Ngoại hạng Anh

Dù làm mưa làm gió ở các bài kiểm tra lập trình hay giải toán, các hệ thống AI tiên tiến nhất thế giới từ Google, OpenAI hay xAI đều "ngã ngựa" khi đối đầu với sự biến hóa khôn lường của quả bóng tròn tại Premier League.

Một nghiên cứu mới mang tên KellyBench từ startup General Reasoning (London) đã phơi bày một sự thật thú vị: Trí tuệ nhân tạo vẫn chưa thể khuất phục được sự "hỗn loạn" của thế giới thực. Trong bài kiểm tra giả lập toàn bộ mùa giải Ngoại hạng Anh 2023-24, các mô hình AI hàng đầu đã bộc lộ lỗ hổng lớn về khả năng suy luận dài hạn và quản lý rủi ro.

Nghiên cứu cho thấy ngay cả những mô hình AI tốt nhất cũng phá sản vì dự đoán Ngoại hạng Anh

"Sát thủ" lập trình nhưng lại là "tay mơ" cá cược

Nghiên cứu đã đưa 8 mô hình AI vào một môi trường ngắt kết nối internet, cung cấp dữ liệu lịch sử chi tiết và yêu cầu chúng xây dựng chiến lược cá cược tối ưu lợi nhuận. Kết quả thật bất ngờ khi hầu hết các "bộ não" điện tử này đều kết thúc mùa giải trong tình trạng thua lỗ, thậm chí là phá sản.

  • Claude Opus 4.6 (Anthropic): Hoạt động ổn định nhất nhưng vẫn lỗ trung bình 11%.

  • Grok 4.20 (xAI): Gây thất vọng lớn khi phá sản ngay trong lần thử đầu tiên và không thể hoàn thành các bài thi sau đó.

  • Gemini 3.1 Pro (Google): Gương mặt hiếm hoi tạo ra điểm sáng với một lần thử đạt lợi nhuận 34%, dù ở lần thử khác cũng chịu thất bại tài chính.

Nhìn chung, hiệu suất của dàn siêu AI này vẫn thua xa so với những người chơi cá cược chuyên nghiệp – những người vốn dựa vào sự nhạy bén và kinh nghiệm thực tế.

Nghiên cứu cho thấy ngay cả những mô hình AI tốt nhất cũng phá sản vì dự đoán Ngoại hạng Anh 2

Khoảng cách giữa phòng thí nghiệm và đời thực

Ross Taylor, CEO của General Reasoning và cựu chuyên gia tại Meta AI, nhận định rằng kết quả này phản ánh sự cường điệu quá mức về tự động hóa AI. Theo ông, các tiêu chuẩn đánh giá hiện nay quá tập trung vào "môi trường tĩnh" (như viết code, tóm tắt văn bản) mà bỏ qua tính thất thường, phụ thuộc hoàn cảnh của thực tế.

"Nếu bạn mang AI ứng dụng vào các nhiệm vụ thực tế có tầm nhìn dài hạn và biến số thay đổi liên tục, kết quả sẽ rất tệ," Taylor chia sẻ với Financial Times.

Bài học về khả năng suy luận thực tiễn

Thí nghiệm KellyBench chứng minh rằng khả năng tạo phần mềm hay giải quyết các vấn đề có cấu trúc không đồng nghĩa với việc AI có thể hiểu được các vòng phản hồi không chắc chắn của xã hội.

Dù các nhà phát triển đang nỗ lực thu hẹp khoảng cách giữa trí tuệ kỹ thuật số và khả năng suy luận thực tế, nhưng cho đến nay, những biến số như phong độ cầu thủ, chấn thương hay những khoảnh khắc xuất thần trên sân cỏ vẫn là một "bài toán khó" mà chưa thuật toán nào giải được trọn vẹn.

Bài đọc nhiều nhất

Bài mới trong ngày

Khi "Itadori" đời thực thực thi công lý: Vụ hành hung tội phạm ấu dâm gây chấn động sự kiện Anime tại Singapore

Khi "Itadori" đời thực thực thi công lý: Vụ hành hung tội phạm ấu dâm gây chấn động sự kiện Anime tại Singapore

hoanlagvnDũng Nhỏ TT

Một vụ xô xát đầy kịch tính vừa xảy ra bên ngoài sự kiện Doujin Market 2026 tại Singapore, khi một cosplayer hóa thân thành nhân vật Yuji Itadori (Jujutsu Kaisen) đã trực tiếp "ra tay" với một kẻ có tiền án lạm dụng trẻ em. Sự việc nhanh chóng trở thành tâm điểm của dư luận, dấy lên cuộc tranh luận nảy lửa về ranh giới giữa chính nghĩa và bạo lực.

Giải trí
Huyền thoại "Akira" tái xuất: Katsuhiro Otomo thành lập Studio OVAL GEAR để gìn giữ di sản Anime

Huyền thoại "Akira" tái xuất: Katsuhiro Otomo thành lập Studio OVAL GEAR để gìn giữ di sản Anime

hoanlagvnDũng Nhỏ TT

Sau nhiều thập kỷ ẩn mình, "vị kiến trúc sư" của dòng phim khoa học viễn tưởng Nhật Bản – Katsuhiro Otomo – đã chính thức trở lại. Việc ông thành lập studio mới mang tên OVAL GEAR không chỉ để thực hiện những dự án cá nhân, mà còn mang sứ mệnh cao cả: Truyền ngọn lửa nghệ thuật độc bản cho thế hệ kế cận.

Giải trí
Lên đầu trang