В марте 2021 года сгорел ЦОД SBG2 в Страсбурге, а в июне вышел из строя дата-центр «Курчатовский». Причины разные, а результат один — сервера недоступны, а некоторым проектам потребовалось восстанавливаться из бэкапов. Почему так случилось и как избежать аварии? Смотрим на чужие грабли, чтобы не наступить на свои.
Причина аварии в ЦОД Курчатовского института
«Курчатовский» дата-центр (KIAEHOUSE) находится на территории Курчатовского института и является частью инфраструктуры MSK-IX. Основное электроснабжение обеспечивает ТЭЦ 16. От ТЭЦ питание подается на два трансформатора института, а от них уже делится на две магистрали до ЦОД. В день аварии в одну из подстанций попала молния и одновременно отключились высоковольтные кабели ТЭЦ 16.
ТЭЦ 16
В результате из энергосистемы выпали оба входа — основной и резервный. ЦОД перешел на автономное питание, а это аккумуляторы и несколько ИБП в подвале здания. К сожалению, система автономного питания ЦОД «Курчатовский» оказалась не рассчитана на длительную работу. К середине дня аккумуляторы истощились и сервера один за другим стали отключаться. К тому моменту как восстановили подачу питания по одному из входов, из строя вышли несколько сетевых коммутаторов, оказались повреждены многие RAID-массивы и серверы клиентов дата-центра
Как обезопасить ЦОД от аварии на примере дата-центра «Курчатовский»
Одномоментный выход из строя высоковольтных кабелей и попадание молнии в трансформаторную подстанцию — экстраординарный форс-мажор. Однако, чтобы избежать подобных случайностей, пусть они и происходят раз в 10 лет, при проектировании ЦОД GreenBushDC мы постарались предусмотреть все возможные и большинство невозможных ситуаций. Для этого:
-
Энергоснабжение ЦОД организовали по шести независимым лучам от трех подстанций ОЭЗ. Даже если из строя выйдут две подстанции из трех или повредятся два ввода из трех, у ЦОД останется один работающий луч.
-
При выходе из строя сразу трех лучей, нагрузка переключится на 16 ДИБП суммарной мощностью 1670 кВА. По 8 ДИБП на основную и резервную подсистемы.
-
Через две минуты после включения ДИБП в работу включится одна из дизель-генераторных установок. В ЦОД GreenBushDC их две, по 1620 кВт каждая. Одна основная и одна резервная.
-
В баках ДГУ постоянно поддерживается запас топлива на 6 часов работы. Это 6 часов работы инфраструктуры всего дата-центра, от серверов до системы охлаждения. За 6 часов планируется восстановить хотя бы один луч, но даже если этого не произойдет...
-
ДГУ будут работать на топливе из топливохранилища, которое находится на территории центра обработки данных. Запас рассчитан на 12 часов полноценной работы всей инфраструктуры.
-
В течение нескольких часов после перехода на автономный режим, запас топливохранилища пополнит один из двух поставщиков. Если что-то сорвется с поставкой, есть резервный вариант.
Площадка ДГУ и ДДИБП
Большинство аварий в ЦОД связано именно с обесточиванием, однако корневые причины форс-мажоров разные. Предусмотреть все невозможно, но можно по-максимуму защитить самые уязвимые участки и застраховаться от большинства глобальных рисков. Мы использовали обе возможности: тщательно зарезервировали энергосетевую инфраструктуру и заключили договор комплексного страхования центра обработки данных. Правда надеемся, что у дата-центра не будет случая проверить надежность системы и ответственность страховщика.