Nvidia thừa nhận lỗi thiết kế trong chip AI Blackwell

NVIDIA cho biết lỗi thiết kế của Blackwell là do họ 100%, TSMC không liên quan gì và gã khổng lồ Đài Loan đã giải quyết vấn đề này.

Nvidia đã giải quyết thành công lỗi thiết kế trong chip AI Blackwell mới nhất của mình, theo lời CEO Jensen Huang. Sự cố này đã gây ra sự chậm trễ trong sản xuất, nhưng với sự hỗ trợ từ đối tác sản xuất lâu năm là TSMC, vấn đề đã được khắc phục. Chính TSMC là bên đầu tiên phát hiện ra lỗi trong quá trình sản xuất.

Nvidia thừa nhận lỗi thiết kế trong chip AI Blackwell

Việc khắc phục lỗi thiết kế này có ý nghĩa quan trọng đối với Nvidia khi họ muốn duy trì vị thế dẫn đầu trong thị trường chip AI, nơi nhu cầu về các giải pháp điện toán hiệu suất cao đang tăng mạnh. Chip Blackwell dự kiến sẽ đóng vai trò chủ chốt trong việc cung cấp phần cứng cho các khách hàng lớn như Meta, Google và Microsoft.

Jensen Huang thẳng thắn thừa nhận trách nhiệm của công ty về sự cố này. "Chúng tôi đã mắc phải một lỗi thiết kế với chip Blackwell," ông cho biết. "Chip vẫn hoạt động, nhưng lỗi thiết kế đã làm giảm năng suất sản xuất. Đây hoàn toàn là lỗi của Nvidia."

Nvidia thừa nhận lỗi thiết kế trong chip AI Blackwell 2

Chip Blackwell, ra mắt vào tháng 3, ban đầu dự kiến sẽ được giao vào quý 2 năm nay, nhưng sự cố đã dẫn đến sự chậm trễ. Huang cũng giải thích rằng dự án Blackwell có mức độ phức tạp cao, với bảy loại chip khác nhau phải được thiết kế và sản xuất đồng thời.

Vấn đề bắt nguồn từ công nghệ đóng gói phức tạp của các chip GPU Blackwell B100 và B200, sử dụng công nghệ CoWoS-L của TSMC. Vấn đề liên quan đến sự giãn nở nhiệt không đồng đều giữa các thành phần, gây ra cong vênh và hỏng hóc hệ thống. Để khắc phục, Nvidia đã sửa đổi các lớp kim loại và cấu trúc silicon của GPU, đồng thời sử dụng các mặt nạ mới để cải thiện năng suất sản xuất.

Nvidia thừa nhận lỗi thiết kế trong chip AI Blackwell 3

Việc giải quyết vấn đề này diễn ra nhanh chóng đáng kể. Trong khi các sự cố tương tự trong ngành bán dẫn thường mất khoảng ba tháng để khắc phục, Nvidia đã hoàn tất các điều chỉnh với sự hỗ trợ từ TSMC và sẵn sàng bắt đầu sản xuất hàng loạt vào cuối tháng 10. Các lô hàng chip Blackwell sửa lỗi dự kiến sẽ bắt đầu từ đầu năm 2025.

Mặc dù gặp khó khăn, nhu cầu về chip Blackwell vẫn rất cao. Google đã đặt hàng hơn 400.000 chip GB200, trong khi Meta và Microsoft cũng ký các hợp đồng trị giá hàng tỷ đô la để sử dụng chip Blackwell cho các dự án AI của họ

Bài liên quan

Bài đọc nhiều nhất

Bài mới trong ngày

Lên đầu trang