Thuật toán mới, được gọi là Mô hình tái tạo lớn (LRM) có thể tạo mô hình 3D từ ảnh thật chỉ trong chớp mắt.
Bằng cách sử dụng tập dữ liệu lớn để đào tạo thuật toán học máy, các nhà nghiên cứu từ Adobe và Đại học Quốc gia Úc đã tạo ra một công nghệ có thể làm nên điều kỳ diệu cho việc tạo mô hình 3D. Các nhà nghiên cứu đã tạo ra thứ mà họ coi là Mô hình tái tạo lớn (LRM) đầu tiên có khả năng dự đoán hình dạng của mô hình 3D từ một hình ảnh hai chiều duy nhất và nó có thể làm như vậy chỉ trong vòng 5 giây.
Các nhà nghiên cứu giải thích trong bài báo của họ rằng các mô hình thế hệ 3D trước đây đã được đào tạo trên các bộ dữ liệu quy mô nhỏ tập trung vào một danh mục hình ảnh duy nhất . Ngược lại, mô hình LRM của họ có kiến trúc dựa trên máy biến áp có khả năng mở rộng cao với 500 triệu tham số có thể học được và đã được đào tạo trên khoảng 1 triệu đối tượng 3D có sẵn trong bộ dữ liệu Objaverse và MVImgNet .
Các nhà nghiên cứu giải thích, sự kết hợp giữa mô hình dung lượng cao và dữ liệu đào tạo quy mô lớn này cung cấp cho thuật toán LRM khả năng tạo nội dung “có tính khái quát cao” . Báo cáo cũng cho biết mô hình này có thể tạo ra các bản tái tạo 3D "chất lượng cao" từ nhiều hình ảnh thử nghiệm khác nhau, bao gồm cả ảnh thực tế. Hơn nữa, LRM có thể lấy cả hình ảnh "bình thường" và các bản vá hình ảnh được tạo bởi các dịch vụ AI như DALL-E và Stable Diffusion làm mô hình 2D đầu vào.
Theo tác giả chính của nghiên cứu, Yicong Hong, LRM là một bước đột phá đáng kể trong việc tái tạo 3D bằng một hình ảnh. Thuật toán AI có thể tạo ra hình học chi tiết từ video hoặc hình ảnh, giữ nguyên các kết cấu phức tạp như vân gỗ.
Các nhà nghiên cứu cho biết LRM có khả năng "biến đổi" tiềm năng vì nó có thể được sử dụng trong nhiều ngành công nghiệp bao gồm thiết kế, giải trí và chơi game. Các nhà thiết kế hoặc nghệ sĩ 3D có thể hợp lý hóa quy trình tạo mô hình 3D, giảm đáng kể thời gian cần thiết để tạo nội dung cho trò chơi điện tử hoặc hoạt hình. Việc tạo nội dung 3D trong một ngành đang phát triển nhanh chóng đã trở thành một thách thức và các công ty AI đang gấp rút cung cấp các giải pháp tiềm năng như dịch vụ Stable 3D được Stability AI giới thiệu gần đây.
LRM cũng có thể dân chủ hóa mô hình 3D, vì người dùng "bình thường" có thể phát triển các mô hình có độ chi tiết cao từ những bức ảnh được chụp bằng điện thoại thông minh. Mặc dù LRM vẫn phải đối mặt với những thách thức, chẳng hạn như kết cấu mờ ở những phần ẩn của hình ảnh, nhưng nó mở ra một thế giới đầy cơ hội sáng tạo và thương mại.