Rất nhiều game thủ đã cố gắng đạt được điểm cao trong trò Ms. Pac-Man nhưng chỉ dừng lại ở con số 266.330 trên phiên bản Atari 2600. Con số tối đa 999.900 mới chỉ đạt được nhờ cheat mà thôi.
Sau quãng thời gian dài dằng dặc, lên tới 36 năm ròng, thì cuối cùng điểm số hoàn hảo của trò chơi huyền thoại Ms Pac-Mac đã xô đổ, nhưng đáng buồn là không phải do con người lập nên kỷ lục này. Maluuba – một đội ngũ phát triển công nghệ deep learning đã được Microsoft mua lại hồi tháng 1 vừa qua – đã chế tạo ra một hệ thống trí tuệ nhân tạo có khả năng học cách đạt được điểm số cao nhất của MS Pac-Man, 999.000 trên hệ máy Atari phiên bản 2600, bằng cách sử dụng công nghệ reinforcement learning cùng phương thức chia để trị (divide-and-conquer).
Các nhà khoa học máy tính đã ghi chép lại thiên hướng sử dụng trò chơi điện tử để thử nghiệm trí thông minh của machine learning bởi chúng tái hiện lại sự phức tạp của thế giới thật ở trong một môi trường được kiểm soát trong những game chiến thuật như cờ tướng chẳng hạn. Hồi năm 2015, AI DeepMind của Google đã có thể phá đảo 49 tựa game trên Atari bằng cách sử dụng phương thức reinforcement learning, nhờ đó mà nó cung cấp cho ta phản hồi tích cực và tiêu cực mỗi khi hệ thống trí tuệ nhân tạo này cố gắng giải quyết một câu đố hoặc một vấn đề nào đó.
Mặc dù AI đã chinh phục được một số lượng không nhỏ những tựa game cổ điển, thế nhưng Ms. Pac-Man lại vô cùng khó nhằn bởi bản chất “thiên biến vạn hóa” rất khó lường của trò chơi. Và hóa ra con người cũng chẳng thể nào “phá đảo” được nó. Rất nhiều game thủ đã cố gắng đạt được điểm cao trong trò Ms. Pac-Man nhưng chỉ dừng lại ở con số 266.330 trên phiên bản Atari 2600. Con số tối đa 999.900 mới chỉ đạt được nhờ cheat mà thôi.
Maluuba đã có thể tận dụng khả năng của trí tuệ nhân tạo để đánh bại trò chơi, nhờ việc chia nhỏ tựa game này thành những tác vụ nhỏ kích cỡ chỉ vài bite và giao cho 150 agent (nhân tố xử lý) khác nhau thực hiện. Đội ngũ các nhà nghiên cứu này sau đó sẽ dạy AI sử dụng thứ mà họ là Kiến trúc Phần thưởng lai (Hybrid Reward Architecture) - nó là sự kết hợp giữa học tập tăng cường (reinforcement learning) với phương pháp chia để trị. Sau đó, Maluuba thiết kế ra một nhân tố xử lý cao nhất với nhiệm vụ thu lấy đề nghị từ tất cả những nhân tố bên dưới nhằm đưa ra một quyết định cho từng bước đi trong Pac Man.
Kết quả thu được sẽ là tốt nhất khi mỗi nhân tố xử lý “hành động một cách ích kỷ nhất” và nhân tố quản lý sẽ tập trung vào việc chọn ra cái gì là tốt nhất cho cả nhóm, nghĩa là không chỉ quan tâm tới việc có bao nhiêu nhân tố muốn làm theo một giải pháp cụ thể nào đó mà quan trọng hơn là giải pháp đó sẽ có ảnh hưởng gì tới toàn cục. (Ví dụ: Một vài nhân tố xử lý muốn tránh con ma ăn thịt bạn – quyết định này sẽ được ưu tiên hơn phần đông nhân tố muốn ăn hạt vì nó tác động đến toàn bộ quá trình chơi.)
“Sự tương tác giữa những nhân tố với nhau là rất tuyệt vời,” Harm Van Seijen, một thành viên trong nhóm nghiên cứu Maluuba, “mặc dù chúng vẫn phải hợp tác với nhau dựa trên mức độ ưu tiên của toàn bộ nhân tố khác, thế nhưng chúng đồng thời chỉ quan tâm tới một nhiệm vụ riêng biệt mà thôi. Từ đó sẽ tạo nên lợi ích cho toàn cục.”
Nhóm phát triển Maluuba cho biết phiên bản AI Hybrid Reward Architecture sẽ có nhiều ứng dụng quan trọng, thí dụ như giúp dự đoán doanh số bán hàng của một công ty hoặc hỗ trợ hiệu quả cho quá trình xử lý ngôn ngữ tự nhiên.
Theo Genk