Тема: Про отключение Ping-Admin.Ru с 22.12.2010 13:45 на примерно сутки

Хотим рассказать, почему же мы не работали примерно сутки начиная с 22 декабря с 13:45.

Несколькими днями ранее произошло печальное событие, перестал работать дисковый массив на резервном сервере. Попытки восстановить этот массив успехом не увенчались. Подозрение пало на контроллер дисков, его заменили на новый, но это не помогло. Стали думать, что делать и как чинить.

И вдруг 22 декабря около 13:45 в дата-центре (ДЦ), где мы размещаем основные серверы, на буквально пару минут пропадает питание, и все серверы выключаются. Внезапное отключение питания во время работы дисков, как известно, ни к чему хорошему не приводит, что и подтвердилось на основном сервере. Диски там сдохли. Стали проверять диски на ошибки и лечить их, но с 6 ТБ это происходит не быстро. А резервный сервер не работает. Так что за пару минут восстановить работу невозможно.

К вечеру диски допроверялись, но толку от этого было мало, т.к. дисковый массив не работал. Ночью пытались всё-таки его оживить, но и это не получилось.

В итоге создали новый дисковый массив, записали туда бэкапную версию от 6 утра. В результате всё заработало, но часть данных (с 6 до 13:45) пропала. Для большинства пользователей это означает, что с 6 до 13:45 никаких списаний со счетов пользователей не осталось (т.е. для пользователей это только хорошо). Все же пополнения счетов, которые были в этот промежуток времени, нашли и зачислили. Сейчас все сервисы работают в полном объёме, никаких ложных срабатываний не было. Единственное, около суток не производились проверки.

Кто виноват? Виноваты мы, что резервный сервер был в ремонте, и не подготовились к такой чрезвычайной ситуации. Также мы виноваты, что согласились переехать в текущий ДЦ, когда в добровольно-принудительном порядке наш хостер туда нас перевёл. Но первопричиной стало именно отключение питания в ДЦ. Хотя там должны быть и ИБП, и дизельные генераторы, и двойной ввод питания из независимых источников, но по непонятным причинам питание всё-равно пропало.

Что делать? Будем держать не 1, а 2 сервера в резерве и ещё раз пересмотрим всю серверную архитектуру, чтобы в будущем такого не повторилось. Ну и подумаем над переездом в другой ДЦ, т.к. текущий ДЦ показал себя не лучшим образом.

Всем пользователям с положительным балансом счёта мы выплатили компенсацию, равную стоимости проверок всех сервисов пользователя в течение 10 дней. Точную сумму компенсации вы можете посмотреть в личном кабинете в разделе: Финансовая статистика / Только зачисления.

Приносим искренние извинения и обещаем, что приложим все усилия, чтобы подобного не повторилось в будущем.

2

Re: Про отключение Ping-Admin.Ru с 22.12.2010 13:45 на примерно сутки

PingAdmin.Ru пишет:

когда в добровольно-принудительном порядке наш хостер туда нас перевёл.

Я думал, вы арендуете дедик в собственно выбранном ДЦ...

PingAdmin.Ru пишет:

Но первопричиной стало именно отключение питания в ДЦ. Хотя там должны быть и ИБП, и дизельные генераторы, и двойной ввод питания из независимых источников, но по непонятным причинам питание всё-равно пропало.

Вот пару дней назад читал рекламу одного ДЦ...там тоже дизельные генераторы и прочие новинки для гарантированной бесперебойности питания...не думал, что все эти технологии могут подвести sad

PingAdmin.Ru пишет:

Ну и подумаем над переездом в другой ДЦ, т.к. текущий ДЦ показал себя не лучшим образом.

А случайно не можете сказать - в каком ДЦ случилась такая трагедия с отключением питания?

PingAdmin.Ru пишет:

Приносим искренние извинения и обещаем, что приложим все усилия, чтобы подобного не повторилось в будущем.

Лично я понимаю ситуацию и верю, что в будущем ничего такого серьезного не произойдет. Благодарю за приложенные усилия к восстановлению сервиса...ну и компенсацию тоже правильно, что сделали...

3

Re: Про отключение Ping-Admin.Ru с 22.12.2010 13:45 на примерно сутки

dim565 пишет:

А случайно не можете сказать - в каком ДЦ случилась такая трагедия с отключением питания?

Не хотелось бы давать антирекламу, поскольку с хостером вы всё-таки пока ещё не в самых плохих отношениях...

4

Re: Про отключение Ping-Admin.Ru с 22.12.2010 13:45 на примерно сутки

PingAdmin.Ru пишет:

перестал работать дисковый массив на резервном сервере. Попытки восстановить этот массив успехом не увенчались. Подозрение пало на контроллер дисков, его заменили на новый, но это не помогло. Стали думать, что делать и как чинить.

И Вы до сих пор не починили резервный сервер? За три (минимум) дня???

Судя по тому, что упал не только Ваш сервер, но и сёмагруп, можно судить о том, что либо у Вас все сайты расположены на одном дедике, либо у всех Ваших серверов полетели рейды. При чём, если понятно что восстановление не сработает в ближайшие часы, то почему бы не запустить резервный сервер на отдельном железе?
В общем не очень радостная картина. При том, что у Вас есть связи с большим количеством серверов по всему миру.

Дальше, если у Вас всё упало, то почему бы не предупредить пользователей спам-рассылкой? Вытянуть список адресов клиентов с резервной копии это не такая большая задача.

Получается что у Вас нет никакой поддержки, т.к. связаться с Вами было просто невозможно. Даже по телефонам хозяина домена (тем более, что они фиктивные). Хоть бы форум выложили куда-нибудь за пределы ДЦ.

Я Вас выбрал за простоту и 100% аптайм. А теперь получается, что мониторить надо Вас...

Еще по теме: у кейвеба тоже недавно было происшествие и тоже при наличии всяких недешёвых систем резервного питания. Отчёт

5

Re: Про отключение Ping-Admin.Ru с 22.12.2010 13:45 на примерно сутки

Форум сегодня вечером переедет на другой сервер в другой ДЦ. Так что форум будет никак не связан с самим сайтом http://ping-admin.ru/. Из-за этого вечером форум может не открываться. Но не пугайтесь - это нормально. Просто ДНС значит ещё не обновились.

По поводу запуска сервиса на другом сервере в другом ДЦ. Это сделать можно было, но дело в том, что в другом ДЦ - другие IP. А обновление ДНС займёт около суток. Мы же надеялись всё восстановить быстрее.

В общем, поверьте, так долго ничего у нас не работало наверно впервые. Мы приложим все усилия, чтобы подобного не повторилось.