Cloudflare пояснила причину масштабного збою
Компанія Cloudflare розповіла про причину серйозної аварії, яка сталася 18 листопада і вплинула на роботу великої частини інтернету, включаючи такі сервіси як ChatGPT, X та Downdetector. Цей інцидент був описаний як “найгірший з 2019 року”. Згідно з поясненням компанії, проблема виникла через помилкове налаштування запиту в базі даних ClickHouse, яка використовується для створення конфігураційного файлу для моделі машинного навчання Bot Management. Це спричинило створення великої кількості дублікатів даних, що призвело до перевищення пам’яті конфігураційного файлу і внаслідок цього вийшло з ладу основну проксі-систему, яка обробляє трафік клієнтів. Це призвело до блокування реального трафіку для деяких клієнтів, що використовували показники ботів у своїх правилах. Щоб уникнути подібних інцидентів у майбутньому, Cloudflare оголосила ряд кроків, включаючи посилення обробки конфігураційних файлів, розширення “kill switch” для функцій, запобігання перевантаженню системи звітами про помилки та перегляд режимів відмови у ключових проксі-модулях. Cloudflare підкреслила, що проблема не була пов’язана з DNS, атаками або новими системами на базі генеративного ШІ, а мала місце в логіці оновлення конфігурації Bot Management. За словами компанії, приблизно 20% інтернет-трафіку проходить через їхню мережу, тому будь-яка помилка в центральних модулях може мати глобальний вплив.