Недавно работе многих крупных интернет-сервисов произошел сбой, он затронул, в частности, облачный сервис Amazon, сайт Reddit, стриминговую платформу Twitch, мессенджер Discord и сервис Downdetector, который сам отслеживает сбои в интернете. Сбой произошел около двух часов дня по московскому времени (в семь утра на востоке США) и продлился примерно два часа.

Проблему изначально связали с крупным сервисом доставки контента Cloudflare, услугами которого пользуются миллионы сайтов. Компания заявила, что потеряла около 15% своего мирового трафика, однако ее собственные системы работали нормально: трафик не доходил до нее из-за чужих ошибок — в том числе, компании Verizon, одной из крупнейших телекоммуникационных компаний в США. Cloudflare опубликовала в своем блоге большой пост про причины сбоя (и с жесткой критикой Verizon), в котором описала случившееся словами «у интернета произошел небольшой сердечный приступ». Интернет-провайдер из Пенсильвании DQE Communications некорректно сконфигурировал маршрутизацию порядка 2% мирового интернета через свою сеть и сеть клиента — металлургической компании Allegheny Technologies. Источник ошибки был в настройке оптимизатора BGP — основного протокола динамической маршрутизации современного интернета.

Неверную конфигурацию почему-то принял и передал всему миру владелец шлюза DQE в магистральный интернет — компания Verizon. Allegheny тоже клиент Verizon, и, возможно, это спровоцировало ошибку. Трафик, предназначенный для гигантов интернета, пошел через маломощную сеть. Это вызвало каскадные отказы в обслуживании, больше всего от которых пострадали клиенты Cloudflare — защищенного облачного хостинга, «держащего» в том числе приложение для подкастов Overcast и мессенджер Discord. Многие сайты на хостинге были недоступны несколько часов, на пике хостинг лишился 10% трафика.

Руководитель Cloudflare Мэтью Принс заявил: «Сотрудникам Verizon и Noction [разработчик оптимизатора BGP] должно быть очень стыдно за то, что их небрежность затронула Cloudflare и значительную часть интернета. То, что BGP настолько неустойчив, — абсурд. Еще абсурднее то, что Verizon принимает маршрутизацию без простейших фильтров».

The teams at @verizon and @noction should be incredibly embarrassed at their failings this morning which impacted @Cloudflare and other large chunks of the Internet. It’s absurd BGP is so fragile. It’s more absurd Verizon would blindly accept routes without basic filters.

— Matthew Prince 🌥 (@eastdakota) June 24, 2019