Что делать, если в разгар рабочего дня «сгорает» основной сервер с учетной программой? Или ломается интернет-маршрутизатор? Скорее всего, эти форс-мажоры приведут к долговременному простою в работе (от 1 до 2 суток) пока не удастся либо починить оборудование, либо закупить новое, либо найти что-нибудь на подмену. Однако таких простоев можно легко избежать, если заранее продумать возможные риски и подготовиться к ним: подготовить планы аварийного восстановления (планы АВ). Данные планы – являются нормой для зрелой ИТ-системы и зачастую неоправданно игнорируются на небольших предприятиях. Что же из себя представляет план АВ? |
Рекомендуемые решения![]() ИТ-обслуживание |
План АВ – это список возможных рисков в ИТ-инфраструктуре, приводящие к ее отказу и сценарии действий ИТ-персонала в случае наступления таких рисков.
А если по-простому – то это документ в котором описаны все возможные ситуации, которые могут случиться и последовательность действий ИТ-инженера в том или ином случае. Например, «сгорает» сервер 1С посреди дня. В таком случае ИТ-инженер активирует на другом сервере заранее установленную и настроенную 1С, разворачивает резервную копию базы и запускает туда пользователей. Получается, в данном случае время простоя будет четко регламентированным и будет составлять от 15 минут до пары часов, а не сутки (зависит от типа резервирования и размера копии базы). И самое главное всем участником понятно, что делать и не надо ничего экстренно придумывать и импровизировать!
Важно понимать, что для внедрения системы аварийного восстановления недостаточно просто все описать в документе. Необходимо инфраструктуру подготовить для реализации сценариев АВ, развернуть на других серверах дублирующие серверные роли, зачастую закупить дополнительное оборудование. Но это будет гораздо дешевле, чем стоить отказоустойчивые кластеры высокой доступности.
Для каждого нашего клиента мы обязательно создаем такой план АВ, и в SLA фиксируем предельно допустимое время восстановление работоспособности сервисов. При этом план создается так, чтобы выполнять действия по нему можно было удаленно, это опять экономить время на перемещение сотрудника к клиенту. Каждые полгода обязательно проводиться учения по этим планам, чтобы убедиться в работоспособности сценариев и их актуальности.
Описанные планы аварийного восстановления вкупе с другими нашими разработками типа комплексной системы мониторинга, регламентными операциями, Канбаном и процессами ITIL позволяют нам оказывать более качественные ИТ-услуги чем большинство наших конкурентов.
Далее приведен пример плана аварийного восстановления для среднестатистического клиента:
1. Недоступен основной интернет-канал
Проблема: Недоступность интернет ресурсов
Решение: В случае недоступности основного интернет канала –GW1 заходим по ssh на второй сервер GW2 и переносим роль недоступного сервера на другой:
После того как мы успешно забрали роли то в сетевых настройках нашего нового контроллера домена меняем первичный DNS на 127.0.0.1.
При этом DHCP серверу нужно указать, чтобы выдавал первичный DNS, адрес нового контроллера домена.