Nghiên cứu cho thấy ngay cả những mô hình AI tốt nhất cũng "phá sản" vì dự đoán Ngoại hạng Anh

Dù làm mưa làm gió ở các bài kiểm tra lập trình hay giải toán, các hệ thống AI tiên tiến nhất thế giới từ Google, OpenAI hay xAI đều "ngã ngựa" khi đối đầu với sự biến hóa khôn lường của quả bóng tròn tại Premier League.

Một nghiên cứu mới mang tên KellyBench từ startup General Reasoning (London) đã phơi bày một sự thật thú vị: Trí tuệ nhân tạo vẫn chưa thể khuất phục được sự "hỗn loạn" của thế giới thực. Trong bài kiểm tra giả lập toàn bộ mùa giải Ngoại hạng Anh 2023-24, các mô hình AI hàng đầu đã bộc lộ lỗ hổng lớn về khả năng suy luận dài hạn và quản lý rủi ro.

Nghiên cứu cho thấy ngay cả những mô hình AI tốt nhất cũng phá sản vì dự đoán Ngoại hạng Anh

"Sát thủ" lập trình nhưng lại là "tay mơ" cá cược

Nghiên cứu đã đưa 8 mô hình AI vào một môi trường ngắt kết nối internet, cung cấp dữ liệu lịch sử chi tiết và yêu cầu chúng xây dựng chiến lược cá cược tối ưu lợi nhuận. Kết quả thật bất ngờ khi hầu hết các "bộ não" điện tử này đều kết thúc mùa giải trong tình trạng thua lỗ, thậm chí là phá sản.

  • Claude Opus 4.6 (Anthropic): Hoạt động ổn định nhất nhưng vẫn lỗ trung bình 11%.

  • Grok 4.20 (xAI): Gây thất vọng lớn khi phá sản ngay trong lần thử đầu tiên và không thể hoàn thành các bài thi sau đó.

  • Gemini 3.1 Pro (Google): Gương mặt hiếm hoi tạo ra điểm sáng với một lần thử đạt lợi nhuận 34%, dù ở lần thử khác cũng chịu thất bại tài chính.

Nhìn chung, hiệu suất của dàn siêu AI này vẫn thua xa so với những người chơi cá cược chuyên nghiệp – những người vốn dựa vào sự nhạy bén và kinh nghiệm thực tế.

Nghiên cứu cho thấy ngay cả những mô hình AI tốt nhất cũng phá sản vì dự đoán Ngoại hạng Anh 2

Khoảng cách giữa phòng thí nghiệm và đời thực

Ross Taylor, CEO của General Reasoning và cựu chuyên gia tại Meta AI, nhận định rằng kết quả này phản ánh sự cường điệu quá mức về tự động hóa AI. Theo ông, các tiêu chuẩn đánh giá hiện nay quá tập trung vào "môi trường tĩnh" (như viết code, tóm tắt văn bản) mà bỏ qua tính thất thường, phụ thuộc hoàn cảnh của thực tế.

"Nếu bạn mang AI ứng dụng vào các nhiệm vụ thực tế có tầm nhìn dài hạn và biến số thay đổi liên tục, kết quả sẽ rất tệ," Taylor chia sẻ với Financial Times.

Bài học về khả năng suy luận thực tiễn

Thí nghiệm KellyBench chứng minh rằng khả năng tạo phần mềm hay giải quyết các vấn đề có cấu trúc không đồng nghĩa với việc AI có thể hiểu được các vòng phản hồi không chắc chắn của xã hội.

Dù các nhà phát triển đang nỗ lực thu hẹp khoảng cách giữa trí tuệ kỹ thuật số và khả năng suy luận thực tế, nhưng cho đến nay, những biến số như phong độ cầu thủ, chấn thương hay những khoảnh khắc xuất thần trên sân cỏ vẫn là một "bài toán khó" mà chưa thuật toán nào giải được trọn vẹn.

Bài đọc nhiều nhất

Bài mới trong ngày

Microsoft “khai tử” Copilot Mode trên Microsoft Edge vì giờ… cả trình duyệt đều là Copilot

Microsoft “khai tử” Copilot Mode trên Microsoft Edge vì giờ… cả trình duyệt đều là Copilot

Khoa NguyenNguyễn Tiến Khoa

Microsoft vừa chính thức khai tử Copilot Mode trên Microsoft Edge, nhưng lý do lại khá thú vị: những tính năng của nó giờ đã được tích hợp thẳng vào Edge luôn rồi. Nói cách khác, Microsoft không còn xem Copilot là một “chế độ riêng biệt” nữa, mà đang biến AI thành một phần mặc định của trải nghiệm duyệt web trên cả desktop lẫn mobile.

Công Nghệ
Cuộc chiến bảo vệ "Hồn của nhân vật": Nhật Bản chính thức thiết lập hành lang pháp lý chống đánh cắp giọng nói bởi AI

Cuộc chiến bảo vệ "Hồn của nhân vật": Nhật Bản chính thức thiết lập hành lang pháp lý chống đánh cắp giọng nói bởi AI

hoanlagvnDũng Nhỏ TT

Giọng nói – thứ tài sản vô giá và duy nhất của mỗi nghệ sĩ – đang đứng trước nguy cơ bị tước đoạt bởi sự bùng nổ của AI tạo sinh. Trước thực trạng này, Chính phủ Nhật Bản đã chính thức nhập cuộc, đặt nền móng cho những đạo luật mới nhằm bảo vệ các diễn viên lồng tiếng (Seiyuu) khỏi vấn nạn "nhân bản" trái phép.

Giải trí
Lên đầu trang