Категория III#
Конфигурация Active-Passive. Один основной ЦОД заказчика. Зарезервированные ресурсы в облачном ЦОД для запуска виртуальных машин в случае аварии в ЦОД заказчика. Резервные копии также хранятся в облачном ЦОД.

Категория |
III |
---|---|
RPO |
2-8 ч. |
RTO |
4 ч. |
DR |
4 ч. |
Доступность |
99,70% |
Архитектурная схема |
Active-Passive (Гибрид Cloud) AIC + Astra Cloud |
Standby replica данных |
Нет |
Георезервирование |
Да |
Кластеризация |
Нет |
Отказоустойчивость инфраструктуры |
ЦОД 1 и ЦОД 2 |
Кластер серверов приложений |
ЦОД 1 private |
Кластер СУБД |
Астра ЦОД public КИИ |
Порог утилизации |
60% средняя часовая |
Требование к ЦОД |
Класс В (Tier3) |
Необходимые меры DR |
Да |
Резервное копирование с георезервированием |
Да |
Данный подход позволяет еще больше увеличить доступность сервисов и минимизировать время простоя, по сравнению с двумя предыдущими вариантами.
Основные режимы использования#
хранение РК в облачном ЦОД для последующего восстановления в основном ЦОД;
репликация данных в облачный ЦОД для последующего создания РК и их восстановления в основном ЦОД;
репликация данных в облачный ЦОД для повышения надежности работы сервисов с возможностью их запуска в облачном ЦОД при возникновении проблем с доступов к основному ЦОД.
Первые два режима использования подробно рассматривались в разделах Категория I и Категория II.
Для обеспечения запуска сервисов в запасном облачном ЦОД необходимо предусмотреть и обеспечить выполнение следующих процедур:
cоздание дополнительного инстанса(ов) контроллера домена ПКД в облачном ЦОД (может потребоваться для выполнения действий по восстановлению с доменной учетной записью);
синхронизация данных с основного на резервный ЦОД;
создание сценариев по запуску сервисов в облачном ЦОД;
настройка сетевого окружения, в том числе proxy серверов, для ручного или автоматического переключения клиентского трафика на резервный облачный ЦОД;
установка менеджера локаций DCImanager из состава AIC в облачном ЦОД для мониторинга состояния оборудования и выполнения превентивных действий плана аварийного восстановления (опционально).
Облачный центр обработки данных (ЦОД) построен на базе ПВ и установлен на трех узлах. Эти узлы содержат различные типы приложений, включая базы данных, серверы приложений, веб-приложения и аналитические приложения. На серверах также установлены ALD Pro для аутентификации и авторизации, и RuBackup для резервного копирования.
Для обеспечения непрерывности бизнеса необходимо разработать План аварийного восстановления (DRP), а также процедуры резервного копирования и восстановления для виртуальных машин и системного ПО. DRP должен соответствовать целевым показателям точки восстановления (RPO) в 8 часов и времени восстановления (RTO) в 4 часа. Также необходимо учитывать наличие резервного ЦОД, работающего в режиме ожидания, с пропускной способностью передачи данных между ЦОДами 1 Гбит/с.
Пример элементов плана аварийного восстановления#
Требования:
обязательные:
резервное копирование критически важных данных баз данных не реже чем каждые 8 часов;
резервное копирование конфигураций системного ПО не реже чем каждые 8 часов;
процедуры восстановления, обеспечивающие восстановление критически важных данных и системного ПО в течение 4 часов;
интеграция ПРК с существующей инфраструктурой для автоматического резервного копирования и восстановления;
репликация резервных копий в резервный ЦОД с пропускной способностью 1 Гбит/с.
желательные:
уведомления и отчеты о статусе резервного копирования и восстановления;
возможность восстановления данных из резервных копий без значительного простоя;
проверка и тестирование процедур восстановления не реже чем раз в месяц.
возможные:
интеграция с другими инструментами резервного копирования и восстановления;
оптимизация процесса резервного копирования для уменьшения времени и объема данных.
Процедуры резервного копирования#
Резервное копирование баз данных:
использование ПРК для создания резервных копий баз данных каждые 8 часов;
bash-скрипты для автоматизации процесса резервного копирования и выполнения snapshot’ов данных.
Резервное копирование системного ПО:
создание резервных копий конфигураций ALSE, ПКД и ПВ каждые 8 часов с помощью ПРК;
автоматизация процесса с помощью bash-скриптов для регулярного создания архивов конфигурационных файлов и базы данных.
Репликация данных:
использование ПРК для репликации резервных копий в резервный ЦОД;
настройка задач передачи данных с использованием утилит Linux (
rsync
,scp
) для синхронизации данных между ЦОД.
Процедуры восстановления#
Восстановление баз данных:
запуск ПКД для восстановления данных из последней резервной копии;
проверка целостности восстановленных данных и запуск баз данных.
Восстановление системного ПО:
восстановление конфигураций ALSE, ПКД и ПВ с помощью ПКД;
перезагрузка сервисов и проверка корректности работы системного ПО.
Тестирование восстановления:
ежемесячное тестирование процедур восстановления для проверки их эффективности и актуальности;
создание отчетов о результатах тестирования и внесение необходимых корректировок в процедуры.
Реализация#
Шаги по реализации резервного копирования и восстановления:
настройка ПКД:
установить ПКД на всех узлах основного и резервного ЦОД;
настроить ПКД для автоматического создания резервных копий баз данных и конфигураций системного ПО каждые 8 часов;
создание bash-скриптов:
разработать bash-скрипты для автоматизации процесса резервного копирования:
снятие snapshot’ов баз данных;
создание архивов конфигурационных файлов;
настроить
cron
для регулярного выполнения скриптов;
репликация данных в резервный ЦОД:
настроить ПКД для репликации резервных копий в резервный ЦОД;
использовать утилиты Linux (
rsync
,scp
) для передачи данных между ЦОДами с пропускной способностью 1 Гбит/с;
процедуры восстановления:
разработать скрипты для автоматического восстановления баз данных и системного ПО из резервных копий;
включить проверку целостности данных после восстановления и перезапуск сервисов;
мониторинг и уведомления:
настроить систему уведомлений для информирования о статусе резервного копирования и восстановления;
включить отчеты о результатах выполнения резервного копирования и восстановления;
тестирование и проверка:
ежемесячно проводить тестирование процедур восстановления для обеспечения их актуальности и эффективности;
создавать отчеты о тестировании и при необходимости вносить корректировки в процедуры.
Основные этапы#
Этап 1: Подготовка:
установка и настройка ПКД на всех узлах основного и резервного ЦОД;
разработка и тестирование bash-скриптов для резервного копирования.
Этап 2: Настройка репликации:
настройка репликации данных с использованием ПКД и утилит Linux;
тестирование передачи данных между ЦОДами.
Этап 3: Процедуры восстановления:
разработка скриптов для автоматического восстановления баз данных и системного ПО;
тестирование процедур восстановления и проверка их корректности.
Этап 4: Мониторинг и уведомления:
настройка системы уведомлений и отчетов о статусе резервного копирования и восстановления;
внедрение мониторинга для отслеживания состояния систем.
Этап 5: Тестирование и валидация:
ежемесячное тестирование процедур восстановления;
создание отчетов о результатах тестирования и внесение корректировок.
Этап 6: Документация и обучение:
создание документации для всех процедур резервного копирования и восстановления;
обучение команды по использованию и поддержке системы.
Сбор результатов#
После реализации и запуска всех процедур резервного копирования и восстановления необходимо регулярно оценивать их эффективность и соответствие требованиям.
Методы оценки:
отчеты о резервном копировании:
регулярный анализ отчетов о выполнении резервного копирования;
проверка времени выполнения резервного копирования и количества успешных/неуспешных резервных копий;
тестирование восстановления:
ежемесячное тестирование процедур восстановления для проверки их эффективности;
создание отчетов о результатах тестирования, включая время восстановления и целостность данных;
мониторинг и уведомления:
мониторинг системы для выявления проблем в реальном времени;
анализ уведомлений и журналов событий для быстрого реагирования на сбои;
оценка RPO и RTO:
сравнение фактического времени восстановления (RTO) с установленными целями (4 часа);
анализ точек восстановления (RPO) для проверки соответствия целям (8 часов);
обратная связь и улучшение:
сбор обратной связи от команды и пользователей для выявления проблем и предложений по улучшению;
регулярный пересмотр и обновление процедур для поддержания их актуальности и эффективности.
Ключевые показатели:
доля успешных резервных копий;
среднее время восстановления данных и системного ПО;
количество инцидентов, связанных с потерей данных;
время реакции на сбои и проблемы.