Компания Efsol завершила проект по созданию геораспределённого отказоустойчивого ИТ-контура для крупной производственной компании с круглосуточным режимом работы. Решение построено на базе двух независимых ЦОД и обеспечивает непрерывную доступность учетной системы 1С даже при полном отказе одной из площадок.
Заказчик работает в сегменте промышленного производства и выпускает продукцию, критичную для строительной, медицинской, аграрной, дорожной и других отраслей. Производственная модель компании включает развитую складскую и логистическую инфраструктуру, региональные представительства и распределённую сеть продаж. Компания производит сотни миллионов квадратных метров продукции в год, имеет десятки тысяч квадратных метров складских площадей и широкую географию присутствия в России и СНГ.
Для такого бизнеса учетная система является не просто ИТ-сервисом, а ключевым элементом операционного контура. При остановке 1С блокируются продажи, отгрузки, складские операции и контроль движения продукции. Даже кратковременная недоступность системы может приводить к остановке бизнес-процессов и прямым финансовым потерям.
До начала проекта инфраструктура заказчика была сосредоточена в одном ЦОД. Внутри площадки уже использовались кластер 1С и кластер SQL, однако сама площадка оставалась единой точкой отказа. Такой подход не защищал бизнес от сценариев полного отказа ЦОД, масштабной атаки шифровальщика или физического повреждения инфраструктуры.
Дополнительным фактором для запуска проекта стало увеличение числа инцидентов в РФ, связанных с компрометацией корпоративной инфраструктуры, шифрованием данных и требованиями выкупа. Заказчик также учитывал опыт партнеров, столкнувшихся с подобными угрозами. В результате была поставлена задача построить архитектуру, при которой отказ или изоляция одной площадки не останавливает работу предприятия.
В результате была поставлена задача построить архитектуру, при которой отказ или изоляция одной площадки не останавливает работу предприятия.
Архитектура решения
По итогам обследования Efsol спроектировала и внедрила геораспределённую отказоустойчивую архитектуру на базе двух удалённых ЦОД в Москве. Между площадками организован высокоскоростной канал 40 Гбит/с на базе тёмного волокна с задержкой менее 1 мс. Для снижения сетевых рисков используются независимые провайдеры.
В основе решения — Microsoft SQL Server Always On, кластер серверов 1С:Предприятия, отказоустойчивые сетевые компоненты, балансировка веб-доступа и резервное копирование с дополнительной защитой от шифровальщиков. Такой подход соответствует логике геораспределённых ИТ-контуров, где отказ одной площадки не должен останавливать ключевые бизнес-сервисы.
Контур баз данных построен на трех SQL-инстансах: два расположены на основной площадке, один — на резервной. Для корректной работы кворума и предотвращения split-brain-сценария используется отдельный свидетель, размещенный на третьей площадке. Это позволяет сохранить управляемость кластера даже при потере одного из ЦОД.
Кластер 1С включает три сервера. При отказе основной площадки сервис 1С автоматически переключается на резервную инфраструктуру. Из-за выбранного уровня отказоустойчивости (уровень 0) кластера 1С пользователи могут получить ошибку текущей сессии, после чего продолжают работу после повторного подключения.
Веб-доступ к информационным базам организован через отдельную точку входа в Яндекс Cloud. Там размещён кластер HAProxy, который балансирует веб-трафик и обеспечивает единую внешнюю точку доступа к публикациям 1С. На этапе миграции заказчику были временно предоставлены новые ссылки через общую точку входа, при этом старые ссылки публикаций баз продолжали работать.
Терминальный и прикладной контур также был адаптирован под геораспределённую схему. Это позволило сохранить доступность пользовательских сервисов при отказе части инфраструктуры и обеспечить управляемое переключение между площадками.
Защита от шифровальщиков и физического отказа ЦОД
Отдельный фокус проекта был сделан на сценариях кибератак и физического вывода площадки из строя, включая атаки БПЛА. Рассматривался сценарий, при котором один из ЦОД полностью становится недоступен: из-за физического повреждения, изоляции, шифрования значительной части инфраструктуры или отказа критичных компонентов.
В этом сценарии сервисы переключаются на резервный ЦОД. Благодаря отдельному свидетелю на третьей площадке архитектура не допускает split-brain, при котором разные узлы могли бы одновременно считать себя активными.
Для защиты данных внедрена многоуровневая модель резервного копирования. Основные резервные копии выполняются с помощью Veeam. Дополнительно базы данных копируются на ленточное хранилище, а картриджи меняются раз в месяц. Такой подход создает дополнительный offline-контур хранения и снижает риск потери данных при атаке шифровальщика.
Также в проекте реализованы меры информационной безопасности:
- выполнена глубокая сегментация сети на основе технологий VLAN с закрытием неиспользуемых портов;
- доступ к инфраструктуре осуществляется только через VPN;
- внедрена MFA для персонала Efsol при работе с инфраструктурой в ЦОД;
- настроен мониторинг попыток подбора паролей и событий безопасности внутри системы.
Глубокая работа с функционалом WIndows server:
- Active Directory;
- группы безопасности;
- GPO;
- аудит действий;
- Just Enough Administration для PowerShell;
- Protected Users;
- Credential Guard;
- LAPS;
- ограничение интерактивного входа;
- разделение админских учеток.
- выполнена глубокая сегментация сети на основе технологий VLAN с закрытием неиспользуемых портов;
- доступ к инфраструктуре осуществляется только через VPN;
- внедрена MFA для персонала Efsol при работе с инфраструктурой в ЦОД;
- настроен мониторинг попыток подбора паролей и событий безопасности внутри системы.
Проведение работ без остановки бизнеса
Одной из ключевых сложностей проекта стал круглосуточный режим работы заказчика. Компания работает 24/7, поэтому внедрение новой архитектуры требовало строгого планирования технологических окон.
Для подключения SQL Always On, добавления серверов 1С в кластер и изменения схемы публикации веб-баз было согласовано несколько ограниченных окон обслуживания. Работы выполнялись поэтапно, чтобы не нарушить работу производственных, складских и коммерческих подразделений.
Особое внимание уделялось сохранению доступности действующих веб-публикаций. На переходном этапе заказчик одновременно использовал прежние ссылки и новую общую точку входа через балансировщик в Яндекс Cloud. Это позволило выполнить миграцию без резкого изменения пользовательского сценария.
Тестирование отказоустойчивости
После внедрения были проведены приемочные испытания совместно с заказчиком. В рамках тестирования эмулировались условия полного отказа инфраструктуры: серверы и виртуальные машины отключались аварийно, без штатного завершения работы.
Проверялись сценарии:
- отказ основной площадки;
- аварийное отключение виртуальных машин;
- потеря доступности SQL-узлов;
- переключение сервисов 1С на резервный ЦОД;
- сохранение кворума через отдельного свидетеля;
- доступность веб-публикаций через балансировщик.
По итогам тестов сервис 1С переключался на резервную площадку в течение примерно 5 минут. Потери данных были минимизированы и ограничивались последними несохраненными действиями пользователя — например, несколькими строками в открытом документе или последним незавершенным документом.
Результат проекта
В результате заказчик получил геораспределённый отказоустойчивый ИТ-контур, рассчитанный на работу в условиях полного отказа одной из площадок. Архитектура обеспечивает доступность учетной системы 1С для 400 пользователей и базы данных объемом около 800 ГБ.
Проект позволил устранить ключевую точку отказа — размещение всей инфраструктуры в одном ЦОД. Теперь сбой площадки, атака шифровальщика или физическое повреждение одного дата-центра не приводят к полной остановке учетной системы, отгрузок и продаж.
Для бизнеса это означает снижение риска простоя производства, сохранение непрерывности складских операций и возможность продолжать продажи даже при серьезном инфраструктурном инциденте.
