Категория III#

Конфигурация Active-Passive. Один основной ЦОД заказчика. Зарезервированные ресурсы в облачном ЦОД для запуска виртуальных машин в случае аварии в ЦОД заказчика. Резервные копии также хранятся в облачном ЦОД.

../../../_images/category_3.png

Категория

III

RPO

2-8 ч.

RTO

4 ч.

DR

4 ч.

Доступность

99,70%

Архитектурная схема

Active-Passive (Гибрид Cloud) AIC + Astra Cloud

Standby replica данных

Нет

Георезервирование

Да

Кластеризация

Нет

Отказоустойчивость инфраструктуры

ЦОД 1 и ЦОД 2

Кластер серверов приложений

ЦОД 1 private

Кластер СУБД

Астра ЦОД public КИИ

Порог утилизации

60% средняя часовая

Требование к ЦОД

Класс В (Tier3)

Необходимые меры DR

Да

Резервное копирование с георезервированием

Да

Данный подход позволяет еще больше увеличить доступность сервисов и минимизировать время простоя, по сравнению с двумя предыдущими вариантами.

Основные режимы использования#

  • хранение РК в облачном ЦОД для последующего восстановления в основном ЦОД;

  • репликация данных в облачный ЦОД для последующего создания РК и их восстановления в основном ЦОД;

  • репликация данных в облачный ЦОД для повышения надежности работы сервисов с возможностью их запуска в облачном ЦОД при возникновении проблем с доступов к основному ЦОД.

Первые два режима использования подробно рассматривались в разделах Категория I и Категория II.

Для обеспечения запуска сервисов в запасном облачном ЦОД необходимо предусмотреть и обеспечить выполнение следующих процедур:

  • cоздание дополнительного инстанса(ов) контроллера домена ПКД в облачном ЦОД (может потребоваться для выполнения действий по восстановлению с доменной учетной записью);

  • синхронизация данных с основного на резервный ЦОД;

  • создание сценариев по запуску сервисов в облачном ЦОД;

  • настройка сетевого окружения, в том числе proxy серверов, для ручного или автоматического переключения клиентского трафика на резервный облачный ЦОД;

  • установка менеджера локаций DCImanager из состава AIC в облачном ЦОД для мониторинга состояния оборудования и выполнения превентивных действий плана аварийного восстановления (опционально).

Облачный центр обработки данных (ЦОД) построен на базе ПВ и установлен на трех узлах. Эти узлы содержат различные типы приложений, включая базы данных, серверы приложений, веб-приложения и аналитические приложения. На серверах также установлены ALD Pro для аутентификации и авторизации, и RuBackup для резервного копирования.

Для обеспечения непрерывности бизнеса необходимо разработать План аварийного восстановления (DRP), а также процедуры резервного копирования и восстановления для виртуальных машин и системного ПО. DRP должен соответствовать целевым показателям точки восстановления (RPO) в 8 часов и времени восстановления (RTO) в 4 часа. Также необходимо учитывать наличие резервного ЦОД, работающего в режиме ожидания, с пропускной способностью передачи данных между ЦОДами 1 Гбит/с.

Пример элементов плана аварийного восстановления#

Требования:

  • обязательные:

    • резервное копирование критически важных данных баз данных не реже чем каждые 8 часов;

    • резервное копирование конфигураций системного ПО не реже чем каждые 8 часов;

    • процедуры восстановления, обеспечивающие восстановление критически важных данных и системного ПО в течение 4 часов;

    • интеграция ПРК с существующей инфраструктурой для автоматического резервного копирования и восстановления;

    • репликация резервных копий в резервный ЦОД с пропускной способностью 1 Гбит/с.

  • желательные:

    • уведомления и отчеты о статусе резервного копирования и восстановления;

    • возможность восстановления данных из резервных копий без значительного простоя;

    • проверка и тестирование процедур восстановления не реже чем раз в месяц.

  • возможные:

    • интеграция с другими инструментами резервного копирования и восстановления;

    • оптимизация процесса резервного копирования для уменьшения времени и объема данных.

Процедуры резервного копирования#

Резервное копирование баз данных:

  • использование ПРК для создания резервных копий баз данных каждые 8 часов;

  • bash-скрипты для автоматизации процесса резервного копирования и выполнения snapshot’ов данных.

Резервное копирование системного ПО:

  • создание резервных копий конфигураций ALSE, ПКД и ПВ каждые 8 часов с помощью ПРК;

  • автоматизация процесса с помощью bash-скриптов для регулярного создания архивов конфигурационных файлов и базы данных.

Репликация данных:

  • использование ПРК для репликации резервных копий в резервный ЦОД;

  • настройка задач передачи данных с использованием утилит Linux (rsync, scp) для синхронизации данных между ЦОД.

Процедуры восстановления#

Восстановление баз данных:

  • запуск ПКД для восстановления данных из последней резервной копии;

  • проверка целостности восстановленных данных и запуск баз данных.

Восстановление системного ПО:

  • восстановление конфигураций ALSE, ПКД и ПВ с помощью ПКД;

  • перезагрузка сервисов и проверка корректности работы системного ПО.

Тестирование восстановления:

  • ежемесячное тестирование процедур восстановления для проверки их эффективности и актуальности;

  • создание отчетов о результатах тестирования и внесение необходимых корректировок в процедуры.

Реализация#

Шаги по реализации резервного копирования и восстановления:

  • настройка ПКД:

    • установить ПКД на всех узлах основного и резервного ЦОД;

    • настроить ПКД для автоматического создания резервных копий баз данных и конфигураций системного ПО каждые 8 часов;

  • создание bash-скриптов:

    • разработать bash-скрипты для автоматизации процесса резервного копирования:

      • снятие snapshot’ов баз данных;

      • создание архивов конфигурационных файлов;

      • настроить cron для регулярного выполнения скриптов;

  • репликация данных в резервный ЦОД:

    • настроить ПКД для репликации резервных копий в резервный ЦОД;

    • использовать утилиты Linux (rsync, scp) для передачи данных между ЦОДами с пропускной способностью 1 Гбит/с;

  • процедуры восстановления:

    • разработать скрипты для автоматического восстановления баз данных и системного ПО из резервных копий;

    • включить проверку целостности данных после восстановления и перезапуск сервисов;

  • мониторинг и уведомления:

    • настроить систему уведомлений для информирования о статусе резервного копирования и восстановления;

    • включить отчеты о результатах выполнения резервного копирования и восстановления;

  • тестирование и проверка:

    • ежемесячно проводить тестирование процедур восстановления для обеспечения их актуальности и эффективности;

    • создавать отчеты о тестировании и при необходимости вносить корректировки в процедуры.

Основные этапы#

Этап 1: Подготовка:

  • установка и настройка ПКД на всех узлах основного и резервного ЦОД;

  • разработка и тестирование bash-скриптов для резервного копирования.

Этап 2: Настройка репликации:

  • настройка репликации данных с использованием ПКД и утилит Linux;

  • тестирование передачи данных между ЦОДами.

Этап 3: Процедуры восстановления:

  • разработка скриптов для автоматического восстановления баз данных и системного ПО;

  • тестирование процедур восстановления и проверка их корректности.

Этап 4: Мониторинг и уведомления:

  • настройка системы уведомлений и отчетов о статусе резервного копирования и восстановления;

  • внедрение мониторинга для отслеживания состояния систем.

Этап 5: Тестирование и валидация:

  • ежемесячное тестирование процедур восстановления;

  • создание отчетов о результатах тестирования и внесение корректировок.

Этап 6: Документация и обучение:

  • создание документации для всех процедур резервного копирования и восстановления;

  • обучение команды по использованию и поддержке системы.

Сбор результатов#

После реализации и запуска всех процедур резервного копирования и восстановления необходимо регулярно оценивать их эффективность и соответствие требованиям.

Методы оценки:

  • отчеты о резервном копировании:

    • регулярный анализ отчетов о выполнении резервного копирования;

    • проверка времени выполнения резервного копирования и количества успешных/неуспешных резервных копий;

  • тестирование восстановления:

    • ежемесячное тестирование процедур восстановления для проверки их эффективности;

    • создание отчетов о результатах тестирования, включая время восстановления и целостность данных;

  • мониторинг и уведомления:

    • мониторинг системы для выявления проблем в реальном времени;

    • анализ уведомлений и журналов событий для быстрого реагирования на сбои;

  • оценка RPO и RTO:

    • сравнение фактического времени восстановления (RTO) с установленными целями (4 часа);

    • анализ точек восстановления (RPO) для проверки соответствия целям (8 часов);

  • обратная связь и улучшение:

    • сбор обратной связи от команды и пользователей для выявления проблем и предложений по улучшению;

    • регулярный пересмотр и обновление процедур для поддержания их актуальности и эффективности.

Ключевые показатели:

  • доля успешных резервных копий;

  • среднее время восстановления данных и системного ПО;

  • количество инцидентов, связанных с потерей данных;

  • время реакции на сбои и проблемы.