Любой сервер, как и автомобиль, требует регулярного технического обслуживания, чтобы работать без сбоев и не подвести владельца в нужный момент. Для этого мы регулярно возим наших «железных коней» на станцию техобслуживания, где с ними выполняют определенные операции, позволяющие им и дальше не подводить своих хозяев. Аналогичные регулярные операции надо выполнять и на серверах, чтобы они не остановили работу компании.
Наши специалисты, основываясь на богатом опыте ИТ-обслуживания, сформировали список регламентных операций, оптимальных для Windows-серверов. Обычно в бизнесе применяют именно Windows, поэтому на таких серверах и делался акцент в этой статье. Исходя из соотношения трудозатрат и эффективности мы пришли к периоду регламентных операций – раз в 1 месяц. При таком периоде процедура не сильно напрягает клиента и позволяет достигнуть требуемых значений надежности работы серверов.
Еще одним важным преимуществом проведения регламентных операций – является сопутствующее выполнение функции мониторинга «здоровья» серверов. Очень часто во время проведения этих работ удается диагностировать скрытую проблему на сервере. Например, после плановой перезагрузки, он не загружается, или загружается с ошибками служб. Если такая неудачная перезагрузка произошла бы в рабочее время, то простой в работе был бы болезненным для компании клиента. Поэтому, когда такие проблемы всплывают во время регламентных операций, проводимых в рамках абонентского обслуживания серверов – это не критично для бизнеса, ведь процедуры проводятся в нерабочее время клиента и есть возможность своевременного устранения неисправности. (см. Таблица 1)
Название операции | Периодичность | Что дает |
Принудительная установка обновлений через WindowsUpdate | 1 мес. | Автоматическая установка обновлений на серверах очень нежелательна, потому что после обновления нужна перезагрузка сервера, а после чего – распаковка скачанных обновлений. Это занимает значительное время, которое недопустимо терять в рабочий день. Кроме того, иногда обновления бывают «проблемными» и приводят к неработоспособности различных служб. Приходится откатывать такие обновления, а это тоже занимает время и получается простой сервера. |
Плановая перезагрузка | 1 мес. | Операционная система Windows очень любит перезагрузки. Во время перезагрузок от «утечек» очищается оперативная память, чистятся логи и завершаются зависшие фоновые задания. Если не делать плановые перезагрузки Windows, то система может зависнуть и при этом в самый ответственный момент. |
Запланированный полный антивирусный осмотр | 1 мес. | Установленного на сервер фонового антивируса недостаточно, так как он проверяет только транзитные файлы и данные, проходящие через оперативную память и кэши. Необходимо регулярно проводить полную проверку всей файловой системы, чтобы выявлять «просочившиеся» вирусы. |
Проверка системы на вирусы с помощью Dr.Web CureIt | 1 мес. | Ни один антивирус не может обеспечить 100% защиты от вирусов. Для более эффективной защиты применяют несколько антивирусных ядер в целях проверки, это повышает вероятность обнаружения вируса. |
Дефрагментация дисков утилитой MyDefrag | 1 мес. | Это операция упорядочивания данных на диске. Её выполнение приводит к увеличению производительности дисковой подсистемы, особенно в показателях чтения данных. |
Проверка создания backup`ов | 1 мес. | Даже операции резервного копирования могут давать сбои. Поэтому важно вручную проверять что резервные копии делаются, их размер не нулевой и дата актуальная. |
Проверка корректного восстановления резервных копий файлов и SQL-баз. | 1 мес. | К сожалению, наличие резервной копии не гарантирует успешное восстановление данных. Поэтому необходимо обязательно проводить тестовое восстановление данных из резервной копии, чтобы быть на 100% уверенным в работоспособности этих данных. Для баз MSSQL нами разработаны скрипты, которые позволяют одним нажатием кнопки мыши проводить разворачивание резервной копии в тестовую базу с последующей проверкой целостности данных. Это очень облегчает процесс проверки и резко повышает фактическую исполняемость этого пункта перечня регламентных операций. |
Удаление temp-файлов и старых log-файлов — папки С:Windowssystem32Logfiles, C:Documents and settings%user% | 2 мес. | Регулярная чистка места от временных файлов позволяет не захламлять системный диск, чтобы в дальнейшем не столкнуться с ошибкой исчерпания свободного места на системном диске. |
Контроль записей в системном журнале на предмет наличия ошибок. Анализ данных мониторинга. | 1 мес. | В системном журнале можно найти информацию о проблемных местах сервера, отследить динамику улучшения или ухудшения его «здоровья» и проактивно реагировать на потенциальные проблемы. |
Контроль мониторинга – корректная работа службы, корректная отправка и доставка уведомлений. | 1 мес. | Все серверы наших клиентов подключены к единой системе мониторинга. В данном пункте проверяется что агент этой системы работает корректно. |
Проверка открытых портов | 2 мес. | Данная проверка позволяет контролировать безопасность сети клиента на предмет открытых ненужных портов. |
Таблица 1 – Описание регламентных операции
Во время проведения регламентных операций происходит подтормаживание сервера, а так же плановые перезагрузки, поэтому эти операции в рабочие время клиента выполнять нельзя. Мы выполняем их в нерабочее время клиента, обычно в пятницу вечером.
Пожалуй, самая большая проблема в проведении регламентных операций – это регулярность их выполнения сотрудниками. Пресловутый «человеческий» фактор может дать о себе знать. Для решения этой проблемы мы придумали следующее: задачи на проведение регламентных операций ставятся сотрудникам системой ERP. На основании этой задачи сотрудник заполняет чек-лист, сгенерированный системой конкретно по объекту проверки. Если эта задача проигнорирована сотрудником, то у него происходит блокировка ERP до выполнения задачи. Также об этом сразу уведомляется руководитель, что позволяет контролировать своевременность исполнения регламентных операций.
Для контроля качества выполнения регламентных операций мы разработали три автоматизированных алгоритма проверки («роботов») которые в фоновом режиме постоянно проверяют на всех серверах ряд параметров: наличие открытых портов, наличие актуальных ненулевых резервных копий и наличие установленных обновлений системы за последний месяц. Эти параметры позволяют сказать проводились ли регламентные операции по факту.
Эффект от внедрения регламентных операций
В результате внедрения культуры проведения регламентных операций при абонентском ИТ-обслуживании, нам удалось достигнуть весьма впечатляющих показателей повышения надежности работы серверов наших клиентов:
-
Поражение операционной системы вредоносным ПО снизилось — на 75%
-
Снижение факта отсутствия актуальной целостной резервной копии — на 95%
-
Снижение сбоев операционной системы после неудачной установки обновлений — на 80%
-
Снижение сбоев, проявляющихся после перезагрузки сервера — на 70%
Оставшиеся случаи происходят по причине обстоятельств, которые невозможно предусмотреть заранее и выявить с помощью профилактики — например, появление нового вируса, неадекватное поведение приложений и служб, действия пользователя и так далее.
На основании нашего опыта проведения технического обслуживания серверов организаций, включающего регламентные операции, можно сделать вывод, что польза от этих процедур значительно превосходит затраты времени и ресурсов на их выполнение. Это говорит о том, что проблему лучше предотвратить вовремя, чем бороться с ее последствиями в дальнейшем.