|
Что делать, если в разгар рабочего дня «сгорает» основной сервер с учетной программой? Или ломается интернет-маршрутизатор? Скорее всего, эти форс-мажоры приведут к долговременному простою в работе (от 1 до 2 суток) пока не удастся либо починить оборудование, либо закупить новое, либо найти что-нибудь на подмену. Однако таких простоев можно легко избежать, если заранее продумать возможные риски и подготовиться к ним: подготовить планы аварийного восстановления (планы АВ). Данные планы – являются нормой для зрелой ИТ-системы и зачастую неоправданно игнорируются на небольших предприятиях. Что же из себя представляет план АВ? |
Рекомендуемые решения
ИТ-обслуживание |
План АВ – это список возможных рисков в ИТ-инфраструктуре, приводящие к ее отказу и сценарии действий ИТ-персонала в случае наступления таких рисков.
А если по-простому – то это документ в котором описаны все возможные ситуации, которые могут случиться и последовательность действий ИТ-инженера в том или ином случае. Например, «сгорает» сервер 1С посреди дня. В таком случае ИТ-инженер активирует на другом сервере заранее установленную и настроенную 1С, разворачивает резервную копию базы и запускает туда пользователей. Получается, в данном случае время простоя будет четко регламентированным и будет составлять от 15 минут до пары часов, а не сутки (зависит от типа резервирования и размера копии базы). И самое главное всем участником понятно, что делать и не надо ничего экстренно придумывать и импровизировать!
Важно понимать, что для внедрения системы аварийного восстановления недостаточно просто все описать в документе. Необходимо инфраструктуру подготовить для реализации сценариев АВ, развернуть на других серверах дублирующие серверные роли, зачастую закупить дополнительное оборудование. Но это будет гораздо дешевле, чем стоить отказоустойчивые кластеры высокой доступности.
ИТ-поддержка по принципу «единого окна» через систему Абонцентра – собственная разработка компании EFSOL на платформе 1С 8.3.
Для каждого нашего клиента мы обязательно создаем такой план АВ, и в SLA фиксируем предельно допустимое время восстановление работоспособности сервисов. При этом план создается так, чтобы выполнять действия по нему можно было удаленно, это опять экономить время на перемещение сотрудника к клиенту. Каждые полгода обязательно проводиться учения по этим планам, чтобы убедиться в работоспособности сценариев и их актуальности.
Описанные планы аварийного восстановления вкупе с другими нашими разработками типа комплексной системы мониторинга, регламентными операциями, Канбаном и процессами ITIL позволяют нам оказывать более качественные ИТ-услуги чем большинство наших конкурентов.
Далее приведен пример плана аварийного восстановления для среднестатистического клиента:
1. Недоступен основной интернет-канал
Проблема: Недоступность интернет ресурсов
Решение: В случае недоступности основного интернет канала –GW1 заходим по ssh на второй сервер GW2 и переносим роль недоступного сервера на другой:
После того как мы успешно забрали роли то в сетевых настройках нашего нового контроллера домена меняем первичный DNS на 127.0.0.1.
При этом DHCP серверу нужно указать, чтобы выдавал первичный DNS, адрес нового контроллера домена.
