Cloudflare Xác Nhận Sự Cố Lớn Gây Gián Đoạn Internet, Ảnh Hưởng Đến Các Dịch Vụ Lớn Như X và ChatGPT
Ông cho biết nguyên nhân của sự gián đoạn là do một thay đổi cấu hình định kỳ trong hệ thống phòng thủ bot của công ty, dẫn đến sự cố trong lớp giảm thiểu bot.
Vào ngày 18 tháng 11, Cloudflare đã xác nhận một sự cố nghiêm trọng trong hệ thống của mình, dẫn đến gián đoạn dịch vụ toàn cầu và ảnh hưởng đến một số nền tảng nổi tiếng như X (trước đây là Twitter), ChatGPT và cả Downdetector. Sự cố này xảy ra vào khoảng 11:48 UTC và đã kéo dài trong nhiều giờ, gây ảnh hưởng lớn đến lưu lượng truy cập internet.
Giám đốc Công nghệ của Cloudflare, Dane Knecht, đã đăng lời xin lỗi công khai sau khi các dịch vụ được khôi phục, gọi đây là một sự cố "không thể chấp nhận được". Ông cho biết nguyên nhân của sự gián đoạn là do một thay đổi cấu hình định kỳ trong hệ thống phòng thủ bot của công ty, dẫn đến sự cố trong lớp giảm thiểu bot.
Nguyên Nhân Sự Cố
Cloudflare cho biết sự cố bắt đầu khi dịch vụ của họ gặp "sự suy giảm nội bộ", ảnh hưởng đến các công cụ bảo mật và giảm thiểu bot. Sự cố này không phải là một cuộc tấn công, mà do một lỗi kỹ thuật trong hệ thống phòng thủ bot, khiến các dịch vụ không thể hoạt động bình thường. Điều này ảnh hưởng không chỉ đến các trang web được Cloudflare hỗ trợ mà còn tới các dịch vụ Access và WARP.
Đến khoảng 14:42 UTC, Cloudflare đã triển khai bản sửa lỗi và dần khôi phục các dịch vụ bị ảnh hưởng. Tuy nhiên, chức năng bảng điều khiển của công ty, bao gồm phân tích và ghi nhật ký lỗi, vẫn gặp sự cố một phần vào chiều cùng ngày.
Cloudflare là một trong những nền tảng cung cấp dịch vụ mạng cho khoảng 19% Internet. Do đó, lỗi trong hệ thống giảm thiểu bot của họ không chỉ ảnh hưởng đến các trang web mà còn gây gián đoạn trên các API và dịch vụ nổi tiếng. Lỗi này gây khó khăn cho việc truy cập của người dùng hợp pháp vào các dịch vụ, ngay cả khi cơ sở hạ tầng cốt lõi của Cloudflare như CDN và DNS vẫn hoạt động bình thường.
Sự cố của Cloudflare diễn ra chỉ vài tuần sau khi Amazon AWS và Microsoft Azure cũng gặp sự cố nghiêm trọng. Vào tháng 10, AWS đã gặp phải sự cố DNS khiến một phần lớn khu vực US-East-1 ngừng hoạt động trong hơn hai giờ. Ngay sau đó, Azure cũng gặp sự cố tương tự.
Các sự cố này một lần nữa đặt ra câu hỏi về cách các dịch vụ lớn xử lý sự cố nội bộ và cách tách biệt các phụ thuộc quan trọng trong hệ thống, đặc biệt khi các nền tảng này chiếm tỷ lệ lớn trên thị trường. AWS và Azure lần lượt chiếm khoảng 30% và 24% thị trường điện toán đám mây, trong khi Cloudflare chiếm khoảng 19% của Internet.
Kết Luận
Sự cố của Cloudflare đã cho thấy sự quan trọng của các dịch vụ hạ tầng Internet và những rủi ro tiềm ẩn khi các sự cố kỹ thuật xảy ra trong các hệ thống quan trọng. Việc khắc phục sự cố và tối ưu hóa các phụ thuộc trong hệ thống sẽ giúp tăng cường độ tin cậy và giảm thiểu các gián đoạn dịch vụ trong tương lai.
Bài cùng chuyên mục