Что такое план аварийного восстановления?
Сбои в ИТ-инфраструктуре полностью исключить практически невозможно или на это требуются значительные финансовые затраты. Поэтому в случае появления форс-мажора, ИТ-инфраструктуру необходимо восстанавливать, как можно быстрее. В такой ситуации нужно выделять 2 важных фактора:- сотрудники знают, что делать (решения выработаны, план действий давно определен);
- заказчик понимает сроки восстановления доступности сервисов.
Важно! Почему изначально известны потенциальные точки сбоя и выработанные решения, но такие ситуации не исключаются?
Ответ на поверхности: соблюдается баланс между финансовыми вложениями в инфраструктуру, внедрением отказоустойчивости и потенциальными потерями бизнеса от недоступности сервисов.
Разработка плана аварийного восстановления
Общий подход к разработке плана можно разделить на несколько этапов:Рисунок 1 – Этапы проработки форс-мажорных ситуаций.
Аудит процессов и рисков
Один из важных этапов, на котором выделяются потенциальные риски и критически важные сервисы. Оценивается текущее состояние ИТ-инфраструктуры:-
- наличие резервных копий;
- резервирование каналов связи;
- наличие мощностей или оборудования для восстановления на нем резервных копий.
Выработка решений
Выбор применяемых решений – это всегда компромисс, между повышением доступности и финансовыми затратами. Одним из оптимальных подходов по соотношению “цена/качество”, является выделение наиболее критически значимых сервисов и использование облачных решений для их резервирования. Тестирование, выбранных решений обязательно происходит на этом этапе. Где можно сравнить различные варианты конфигураций, провести пилотные тесты.Внедрение
Этап внедрения включает в себя не только настройку технической части инфраструктуры, но и обучение сотрудников порядку реакции на инцидент. Эффективной мерой проверки качества внедрения является проведение учений моделирующих тот или иной сбой.Запуск в эксплуатацию
На данном этапе, считается, что порядок восстановления доступности систем отработан. Сотрудники знают, что делать. У бизнеса сформированы ожидание и есть понимания, что будет происходить.Пример из жизни: Торгово производственная компания. Согласованная недоступность учетной системы 1С:Предприятие возможна не более 15 минут в утренние часы отгрузки продукции. Бэкапы делаются стабильно, есть несколько серверов (хостов), в том числе и бэкап сервер.
Вопрос. Что будем делать, если аппаратная часть хоста, на котором крутится 1Ска выйдет из строя?
Ответ, который напрашивается: развернем резервную копию на втором хосте. И здесь появляется нюанс: за 15 минут бекап не развернуть. Более того, на имеющихся серверах нет ресурсов.
В такой ситуации, длительный простой компании и срыв отгрузок клиентам обеспечен. А на первый взгляд, все было хорошо.
Вывод
Наличие плана аварийного восстановления инфраструктуры или сервисов является обязательным для любого масштаба бизнеса. Проработка потенциальных рисков, на опережение позволит исключить или минимизировать потери для бизнеса.
Компания EFSOL подготовила несколько решений для достижения полной отказоустойчивости и стабильности работы 1С: аренда 1С с Disaster Recovery и аренда 1С кластера.