В разгар кризиса: одна вещь, которую CrowdStrike и Microsoft не могут исправить
Я видел только один «синий экран смерти» в воскресенье, 21 июля, за 15 часов путешествия через два крупнейших аэропорта страны, всего через два дня после того, как неудачное обновление программного обеспечения вывело из строя миллионы корпоративных компьютеров под управлением операционной системы Windows.
«Может быть, все в порядке», — помню, подумал я, когда моя семья делала первые шаги в нью-йоркском аэропорту Ла Гуардия около 9 часов утра. Заголовки говорили об обратном: на третий день Великого сбоя в работе окон в 2024 году зона продажи билетов и багажа выглядела не слишком хорошо. плохой.
Я должен был знать лучше. Я сделал буквально два шага внутри здания, прежде чем получил первое из примерно 3000 писем с задержкой от Delta в течение дня, а также еще больше уведомлений от приложений Flighty и Fly Delta. Путь домой из Нью-Йорка во Флориду не будет легким, что я делал десятки раз за эти годы.
Я не новичок в задержках рейсов. (В конце января я провел 15 часов в Sky Club в Лос-Анджелесе — не то, что я рекомендую, несмотря на то, насколько он хорош.) Но этот был другим. Погода бывает. Механические проблемы случаются. Они отстой, но все они сводятся к безопасности. На этот раз? Сторонний поставщик средств безопасности испортил файл внутри Windows. CrowdStrike должен был это заметить. Microsoft должна была это понять. Ни один из них не сделал этого, пока не стало слишком поздно. Хотя исправление было относительно простым — загрузитесь в безопасном режиме или продолжайте перезагружать компьютер до тех пор, пока плохой файл не будет заменен — эффект первого порядка был огромен.
Это эффекты второго и третьего порядка, когда дела у авиакомпаний действительно пошли не так. Особенно сильно пострадала компания Delta — генеральный директор Эд Бастиан в воскресенье написал , что в субботу было отменено более 3500 рейсов, а в воскресенье — еще больше. «Пожалуйста, приходите ко мне на подиум, если вам нужно обняться», — сказал наш агент на входе около 16:30 в воскресенье, когда табло обновилось и появилось надпись «ОТМЕНЕНО».
Очередь к стойке перебронирования в зале А в Атланте — одном из семи терминалов самого загруженного аэропорта страны — была до смешного (или трагически) длинной. Я просидел с одним наушником и ждал на линии бронирования авиабилетов два часа, прежде чем сдаться. (Мой брат, у которого гораздо более высокий статус часто летающего пассажира, по крайней мере, сумел убедить реального человека сказать ему, что я ни за что не выберусь раньше полуночи и что лучше всего придерживаться назначенного рейса до сейчас.)
Наконец, рано утром в понедельник, 22 июля, на борту бортпроводник дал нам представление о том, что на самом деле портило ситуацию: «Дельта» не знала, где находятся ее экипажи. Позже в тот же день это было подтверждено в другом новостном сообщении от Delta , в котором говорилось, что более половины ее ИТ-системы работают под управлением Windows, и что дополнительное время синхронизации требуется даже после перезагрузки затронутых компьютеров.
«Экипажи Delta полностью укомплектованы и готовы обслуживать наших клиентов», — говорится далее в сообщении. «Но одна из наиболее важных систем Delta, которая обеспечивает присутствие полного экипажа на всех рейсах в нужном месте и в нужное время, очень сложна и требует больше всего времени и ручной поддержки для синхронизации».
В конце концов мы добрались до дома почти в 2 часа ночи. Устали. Немного измотанный. Но, в общем, опоздал всего на восемь часов. Нам повезло. Двумя днями ранее мой брат провел около 30 часов в аэропорту Атланты, просто пытаясь добраться домой в Пенсаколу после того, как прервал поездку на Западное побережье. Никаких рейсов. Нет аренды автомобиля в одну сторону. Если не считать ожидания, никаких других реальных вариантов, кроме того, чтобы кто-то ехал по пять часов в одну сторону в поисках спасения.
Наших историй было всего две из тысяч, и ставки в них были относительно низкими. У нас не было детей, путешествующих самостоятельно. У нас не было кучи денег, за исключением пары обедов, которые мы не планировали есть в аэропорту. Наши сумки долетели на одном самолете.
Непосредственное решение проблемы CrowdStrike было довольно простым. CrowdStrike и Microsoft должны иметь политику, позволяющую снизить вероятность повторения этой ситуации. (Это, конечно, повторится.) Но, как говорится — и это версия PG-13 — какашки текут под откос. Ничто из этого не было виной авиакомпаний. Но вскоре им пришлось наводить порядок.
И это то, что простая перезагрузка не может исправить. Даже если вы сделаете этоболее 8 миллионов раз .