06.10.2021

На днях произошел крупнейший сбой в истории интернета. 3,5 млрд человек не могли зайти в Facebook, Instagram и WhatsApp. Приложения были полностью недоступны — это привело к колоссальным финансовым потерям. Только акционеры Facebook потеряли 3,41 трлн рублей. Капитал Марка Цукерберга уменьшился почти на 508 млрд рублей. В это же время финансовые потери российских бизнесменов оцениваются в 400 млн рублей.

Причиной глобальной интернет-проблемы стала ошибка при изменении конфигурации магистральных маршрутизаторов, которые отвечают за трафик между дата-центрами.

Интернет — это сеть из сетей, которые связаны между собой через протокол граничного шлюза. Эти шлюзы позволяют сети Facebook заявить о своем существовании другим сетям. Они и формируют весь интернет. В течение 6 часов Facebook никак не сообщал о своем присутствии другим сетям.

У каждой индивидуальной сети есть свой номер автономной системы. Автономная система — это сеть со стандартизированной политикой внутренней маршрутизации. Каждая автономная система должна сообщить о себе в интернете, иначе ее никто не узнает, где ее найти и как к ней подключиться. Так и случилось.

Чтобы пользователи видели информацию в интернете, она должна пройти по пути A → B → C. Такой путь был недоступен. Дальше информация может пойти обходными путями, которых может быть очень много. Вчера информация не могла пройти ни по одному из таких путей.

"Выживают параноики. В Facebook либо параноики наивные, либо неопытные. Факап такого масштаба и длительности возможен только тогда, когда разработкой моделей угроз занимаются люди, живущие в мире розовых пони, которые кушают радугу, — говорит генеральный директор компании "Комфортел" Дмитрий Петров. — Сетевик, выросший в суровых условиях, не допустит полную остановку работы сервисов на уровне BGP с восстановлением лишь через 6 часов."

"В Facebook забыли о том, что они технологическая компания, а не финансовая корпорация — продолжает Дмитрий — Каждый сервис должен быть автономным. Его архитектура должна продумываться автономно, если падает один сервис, он не должен тянуть за собой другие.Наверное, это сигнал топ-менеджменту компании, чтобы они не лезли в технологии, а позволяли технарям самостоятельно принимать решения по управлению ИТ-архитектурой."