Kết quả cho thấy Claude 3.7 của Anthropic là “người chơi” xuất sắc nhất, với phản xạ ấn tượng, thực hiện những cú nhảy chính xác và né tránh kẻ thù khéo léo.
Đánh giá khả năng của trí tuệ nhân tạo (AI) từ lâu đã là một vấn đề gây tranh cãi, khi các công ty thường bị chỉ trích vì chỉ khoe khoang những kết quả tích cực mà che giấu những hạn chế. Thay vì các bài kiểm tra logic hay toán học quen thuộc, một nhóm nghiên cứu tại Phòng thí nghiệm AI Hao thuộc Đại học California San Diego (UC San Diego) đã thử một cách tiếp cận độc đáo: dùng tựa game kinh điển Super Mario Bros. để thử thách các mô hình AI hàng đầu. Nếu một AI không thể vượt qua Goombas hay Koopa Troopas, liệu nó có đáng tin cậy trong thế giới phức tạp của chúng ta.
![AI Doi Mat Voi Thu Thach Super Mario Bros AI Đối Mặt Với Thử Thách Super Mario Bros]()
Trong thí nghiệm này, các nhà nghiên cứu sử dụng một phiên bản mô phỏng của Super Mario Bros., tích hợp với GamingAgent – một khuôn khổ do Hao Lab phát triển. GamingAgent cho phép AI điều khiển nhân vật Mario thông qua việc tạo mã Python, dựa trên các hướng dẫn đơn giản như “Nhảy qua kẻ thù” cùng hình ảnh chụp màn hình từ trò chơi. Dù trông như một tựa game 2D đơn giản, Super Mario Bros. đòi hỏi AI phải lập kế hoạch nhanh chóng và điều chỉnh chiến lược theo thời gian thực – một thách thức không hề nhỏ.
Kết quả cho thấy Claude 3.7 của Anthropic là “người chơi” xuất sắc nhất, với phản xạ ấn tượng, thực hiện những cú nhảy chính xác và né tránh kẻ thù khéo léo. Claude 3.5, phiên bản tiền nhiệm, cũng thể hiện không kém phần nổi bật. Trong khi đó, các mô hình nổi tiếng với khả năng lý luận như GPT-4o của OpenAI và Gemini 1.5 Pro của Google lại gặp khó khăn. Dù mạnh về tư duy logic, chúng không thể theo kịp nhịp độ nhanh của trò chơi.
![AI Doi Mat Voi Thu Thach Super Mario Bros 2 AI Đối Mặt Với Thử Thách Super Mario Bros 2]()
Theo các nhà nghiên cứu, chìa khóa để thành công trong Super Mario Bros. không nằm ở lý luận mà là tốc độ. Một chút chậm trễ trong việc tính toán bước đi tiếp theo cũng có thể khiến Mario rơi xuống hố. Các mô hình quá “suy nghĩ” dường như mất quá nhiều thời gian để đưa ra quyết định, dẫn đến thất bại liên tiếp.
Dĩ nhiên, việc dùng một trò chơi điện tử cổ điển để đánh giá AI mang tính giải trí nhiều hơn là một thước đo nghiêm túc về hiệu quả thực tế. Khả năng chơi Super Mario Bros. không phản ánh trực tiếp giá trị của AI trong các ứng dụng thực tiễn. Tuy nhiên, cảnh tượng những mô hình tối tân “vật lộn” với một trò chơi tưởng chừng đơn giản vẫn khiến không ít người thích thú.
Cho những ai muốn tự mình khám phá, Hao AI Lab đã công khai mã nguồn của GamingAgent trên GitHub, mở ra cơ hội để cộng đồng thử nghiệm và trải nghiệm. Bạn nghĩ AI của mình có thể vượt qua Mario không? Hãy thử và tìm hiểu