В данной статье я хочу поднять вопрос о факторах, влияющих на стабильность работы любого облака и методах обеспечения стабильности его работы. Любое облако – это сложная система, поэтому подходы к его построению у разных провайдеров очень разные, как следствие и разный уровень стабильности. Давайте разберем что же под капотом у “облака” и что непосредственно влияет на его скорость и надежность.
Основные факторы влияющие на надежность облака:
- стабильность организации интернет-канала;
- корректная сетевая и “железная” архитектура без узких мест;
- стабильность программного обеспечения и гипервизора;
- надежный дата-центр, в котором нет проблем с энергопитанием и охлаждением.
Интернет
Одной из наиболее часто встречающихся проблем у облачного хостинга – это нестабильность интернет-канала. Он может не обеспечивать должной пропускной способности или не иметь шейпера. Что приведет в какой-то момент к его перегрузке одним или парой активных клиентов. Или не иметь защиты от DDOS. Очень важно, чтобы интернет канал был представлен не одним, а двумя или более провайдерами, с настроенным протоколом BGP между ними. Дополнительным фактором обеспечение стабильности интеренета в облаке будет отказоустойчивое каналообразующее оборудование. Можно иметь много входящих линков от провайдеров, но если они все будут подключаться в единственный маршрутизатор, то это будет точка сбоя. Поэтому важно выбирать хостинг-провайдера, у которого маршрутизаторы зарезервированы, в идеале находятся в Active-Active кластере.Железо
Вторым фактором стабильности, влияющем на облако – является аппаратная составляющая. Большинство сбоев в инфраструктуре облака происходит из-за неполадок аппаратной части. Самые неприятные проблемы возникают с сетевой инфраструктурой, потому что диагностируются не так легко, как в серверной. Поэтому очень важно выбирать качественное сетевое оборудование именитых производителей с хорошей техподдержкой и с большой базой знаний проблем и их решений. Кроме того, очень важно иметь резервирование сетевых коммутаторов в режиме Active-Active, настроить это не сложно. По серверному оборудованию ситуация несколько проще, так как можно просто иметь запасной аналогичный сервер или комплектующие. И в случае аппаратной проблемы – провести замену. Для анализа проблем с оборудованием очень важно иметь развитую систему мониторинга, особенно сети, по таким параметрам, как:- нагрузка на сеть в мегабитах;
- количество пакетов в секунду на каждом интерфейсе коммутатора;
- доступность интерфейсов;
- нагрузка на процессор и память свитчей;
- уровень загрузки буфера интерфейсов;
- логирование ошибок на свитчах в отдельную систему для анализа;
- сбор сетевых параметров с хостов и виртуальных машин.
- доступность дисков в массивах;
- нагрузку IOPS на массивах и лунах;
- загрузку CPU;
- загрузка SAN сети.
Система хранения данных
Следующий фактор надежности – это система хранения данных. Как не парадоксально звучит, но софт – это более стабильная компонента, нежели “железо”. Все-таки основным генератором неожиданных проблем является аппаратная составляющая, которая уже порождает сбои и ошибки программной части. В данном разделе хочу обратить внимание на выбранную архитектуру системы хранения данных облака. Очень грубо её можно разбить на два варианта:- структура с децентрализованным хранением данных, использующая локальные диски;
- структура с централизованным хранением данных, использующая стореджы (аппаратные или программные) и соотвествующую SAN сеть.
Децентрализованная, локальная | Централизованная, стореджи | |
Отказоустойчивость | Низкая, т.к. данные располагаются на конкретном сервере, от сбоя спасают резервные копии данных. | Высокая. Оборудование имеет полное внутреннее резервирование, отсутствует компонент, отказ которого, приведет к остановке оборудования. |
Скорость работы | Максимальная. Виртуальные машины работают с локальными дисками без лишних посредников. | Средняя. Виртуальные машины работают с данными через SAN сеть, которая неизбежно вносит задержки. Но это может компенсироваться быстрыми массивами дисков на самом сторедже. |
Гибкость | Низкая. Может не рационально расходоваться место, большие издержки на организацию резервирования локальных дисков. | Высокая. Можно очень гибко управлять клиентской нагрузкой и оперативно добавлять/убавлять место из общего пула. |
Простота обслуживания и диагностика проблем | Простая. Не требует от ИТ-инженеров специализированных навыков. | Сложная. Требуется опыт и знание конкретного производителя стореджей, а также разбираться в выбранном типе SAN-сети (ее настройке и диагностике проблем). |
Вероятность сбоя | Достаточно высокая. Связано с большим кол-вом зарезервированных узлов. | Низкая. |
Цена сбоя | Низкая. Сбой одной единицы хранения приведет к локальным проблемам у небольшой группы клиентов. Остальные сервера продолжат работу. | Высокая. В случае сбоя стореджа заденет очень большое количество клиентов. |
Каждый хостинг-провайдер выбирает свою стратегию системы хранения, но по моему мнению – централизованный сторедж более зрелая и надежная архитектура.
Гипервизор
Дополнительный важный программный компонент – это гипервизор, который является сердцем облака. Систем виртуализации существует большое количество, как платных, так и условно бесплатных. Самые известные из платных решений – VMWare и Hyper-V. Несмотря на то, что их сейчас нельзя приобрести и поддержка производителя затруднена, большое количество хостинг-провайдеров продолжают их использовать. Крупные провайдеры осуществляют поддержку вендора через личные связи или зарубежных партнеров, более мелкие – по огромной базе знаний проблем из Интернета. Такая архитектура вполне имеет право на существование даже сейчас. Данные решения очень зрелые и без экстренных обновлений вполне способны долго и стабильно работать. Вторая группа – это условно бесплатные гипервизоры. Здесь наиболее известное решение – OpenStack и Proxmox. Что про них можно сказать? OpenStack – это мощный, навороченный, сложный, страшный зверь, который из коробки работать фактически не будет. Вместе с ним должна идти мощная и дорогая команда специализированных разработчиков и инженеров. Однако крупные хостинг-провайдеры идут этим путем, продукт дает большие возможности для доработок под себя. Proxmox гораздо более простое решение, зато способное качественно и быстро работать из коробки. Функционал у него не такой богатый как у OpenStack, но для небольшого хостинг-провайдера достаточный. И он не потребует для эксплуатации большого и дорого штата инженеров и разработчиков. В основе обоих вышеперечисленных продуктов лежит открытый гипервизор KVM, но в Proxmax он изначально оптимизирован и работает из коробки заметно шустрее. Существует еще третий класс гипервизоров – это различные отечественные платные решения сделанные на базе OpenStack или oVirt. В этой категории сейчас идет реальное импортозамещение у крупного бизнеса и государственных структур. Поэтому российские разработки сейчас на подъеме и развиваются семимильными шагами. Такими темпами они вскоре могут составить конкуренцию именитым зарубежным брендам. Так что считаю – их сейчас тоже можно установливать для управления коммерческим облаком.Резервное копирование
Следующий фактор надежности программного обеспечения облака – система резервного копирования. Эта настоящая палочка-выручалочка в случае форс-мажорной ситуации серьезного сбоя или работы вируса-шифратора.- Важно, чтобы система резервного копирования была максимально автономной от общей структуры! Желательно, чтобы работала через собственную сеть. Сервера клиентов принципиально не должны иметь доступа в сеть резервного копирования.
Дата-центр
Важно обратить внимание на выбор дата-центра (ЦОД). Если площадка размещения серверов окажется не слишком надежной, то при условии, что все вышеперечисленное сделано и настроено идеально – это не защитит от сбоев. Все дата центры поделены на классы надежности. В детали вдаваться не буду – важно выбирать хостинг-провайдера, который располагается в дата-центре класса Tier-3 или выше. (Правда, в России нет Tier-4, т.к. это очень дорого).- Но есть нюанс! Выбирайте сертифицированный Tier-3 ЦОД, ведь на рынке очень много дата-центров уровня Tier-3 Design.
Собственно вот, что я хотел рассказать о неочевидных факторах выбора надежного хостинг-провайдера для вашей информационной системы 1С или иной. На что стоит сразу обратить внимание и какие вопросы задать при анализе коммерческих предложений.