Тема: Про отключение Ping-Admin.Ru с 22.12.2010 13:45 на примерно сутки
Хотим рассказать, почему же мы не работали примерно сутки начиная с 22 декабря с 13:45.
Несколькими днями ранее произошло печальное событие, перестал работать дисковый массив на резервном сервере. Попытки восстановить этот массив успехом не увенчались. Подозрение пало на контроллер дисков, его заменили на новый, но это не помогло. Стали думать, что делать и как чинить.
И вдруг 22 декабря около 13:45 в дата-центре (ДЦ), где мы размещаем основные серверы, на буквально пару минут пропадает питание, и все серверы выключаются. Внезапное отключение питания во время работы дисков, как известно, ни к чему хорошему не приводит, что и подтвердилось на основном сервере. Диски там сдохли. Стали проверять диски на ошибки и лечить их, но с 6 ТБ это происходит не быстро. А резервный сервер не работает. Так что за пару минут восстановить работу невозможно.
К вечеру диски допроверялись, но толку от этого было мало, т.к. дисковый массив не работал. Ночью пытались всё-таки его оживить, но и это не получилось.
В итоге создали новый дисковый массив, записали туда бэкапную версию от 6 утра. В результате всё заработало, но часть данных (с 6 до 13:45) пропала. Для большинства пользователей это означает, что с 6 до 13:45 никаких списаний со счетов пользователей не осталось (т.е. для пользователей это только хорошо). Все же пополнения счетов, которые были в этот промежуток времени, нашли и зачислили. Сейчас все сервисы работают в полном объёме, никаких ложных срабатываний не было. Единственное, около суток не производились проверки.
Кто виноват? Виноваты мы, что резервный сервер был в ремонте, и не подготовились к такой чрезвычайной ситуации. Также мы виноваты, что согласились переехать в текущий ДЦ, когда в добровольно-принудительном порядке наш хостер туда нас перевёл. Но первопричиной стало именно отключение питания в ДЦ. Хотя там должны быть и ИБП, и дизельные генераторы, и двойной ввод питания из независимых источников, но по непонятным причинам питание всё-равно пропало.
Что делать? Будем держать не 1, а 2 сервера в резерве и ещё раз пересмотрим всю серверную архитектуру, чтобы в будущем такого не повторилось. Ну и подумаем над переездом в другой ДЦ, т.к. текущий ДЦ показал себя не лучшим образом.
Всем пользователям с положительным балансом счёта мы выплатили компенсацию, равную стоимости проверок всех сервисов пользователя в течение 10 дней. Точную сумму компенсации вы можете посмотреть в личном кабинете в разделе: Финансовая статистика / Только зачисления.
Приносим искренние извинения и обещаем, что приложим все усилия, чтобы подобного не повторилось в будущем.