Аварийное восстановление | Disaster Recovery

Дата публикации: 1 января 2020 г.

Содержание:

* * *

Процесс планирования аварийного восстановления включает в себя не просто создание документа (плана), это комплекс заранее согласованных действий направленных на снижение последствий аварии. Disaster Recovery Plan включает в себя следующие этапы разработки:

установление сфер/объектов защиты при аварийных инцидентах
сбор документации о процессах и инфраструктуре
расстановка приоритетов: выявление критических угроз, уязвимостей и наиболее важных активов
оценка и анализ аварийных инцидентов / сбоев, а также последовательность их решения
определение стратегии аварийного восстановления
определение ролей и обязанностей в чрезвычайных ситуациях
разбор и утверждение плана аварийного восстановления с группой
тестирование и испытание плана
обновление плана
аудит Disaster Recovery Plan

Commvault Disaster Recovery

Репликация данных

Аварийное восстановление

Автоматическое переключение

Контрольный список целей аварийного восстановления включает в себя определение критически важных объектов защиты: ИТ-сервисов, сетей и данных, а так же расчет значений основных показателей BIA, RA, RTO и RPO для разработки стратегии восстановления работоспособности (перезапуск, установка, настройка и восстановление систем, данных и сетей) по каждому объекту. Перед составлением детального плана, необходимо выполнить расчет основных показателей:

Анализ воздействия на бизнес (business impact analysis - BIA)
Анализ рисков (Risk Analysis - RA)
Допустимое время восстановления (recovery time objective - RTO)
Допустимая (критическая) точка восстановления (recovery point objective - RPO)

Значение RTO / RPO	Объекты воздействия	Стратегия
От нескольких секунд до минут	Критически важные системы и базы данных высокой доступности	Репликация и кластеризация с мгновенным переключением на резервный узел (failover)
От нескольких минут до пары часов	Виртуальные машины, базы данных, системы обмена сообщениями.	Горячее резервное копирование с оперативным восстановлением работы системы или базы данных на новом или том же устройстве
От нескольких часов до дней	Файловые сервера, рабочие станции	Холодное резервное копирование редко изменяющихся данных, поиск и восстановление отдельных файлов, почтовых сообщений

BIA: АНАЛИЗ ВОЗДЕЙСТВИЯ НА БИЗНЕС

В плане аварийного восстановления показатель BIA, дает оценку затратам (убыткам, ущербу) вызванным последствием сбоя. При расчете BIA показывает количественную оценку важности бизнес-процессов и распределение средств для принятия мер по их защите и устранению. Последствия сбоев будут оцениваться с точки зрения их воздействия на безопасность, финансы, маркетинг, деловую репутация, уголовную или административную ответственность перед законом. Для сравнительного анализа все возможные воздействия выражаются в денежном исчислении и распределяются в порядке значимости. Например, в результате инцидента бизнес может потратить в три раза больше средств на маркетинг для восстановления доверия клиентов и репутации компании, чем меры предпринятые для защиты. BIA помогает в создании стратегии аварийного восстановления, выбору приоритетов, а так же требований к ресурсам и времени.

RA: АНАЛИЗ РИСКОВ

Анализ рисков - это процесс выявления и анализа потенциальных проблем, которые могут негативно повлиять на ключевые бизнес-процессы или критически важные функции системы, чтобы помочь организациям избежать или смягчить эти риски. Организации используют анализ рисков для:

Оценки и сравнение потенциальных рисков
Создания плана на случай отказа или временной потери сервиса
Предупреждения и уменьшения последствий аварийных инцидентов

RTO: ДОПУСТИМОЕ ВРЕМЯ ВОССТАНОВЛЕНИЯ

Допустимое время восстановления - это максимально допустимый период времени, в течение которого сеть, сервер или база данных информационной системы могут оставаться неработоспособными. Выход за рамки RTO приводит к критическому нарушению рабочего процесса и потери доходов компании выраженных в единицу времени в зависимости от последствий аварийной ситуации. RTO измеряется в секундах, минутах, часах или днях и является важным показателем при планировании аварийного восстановления. Многочисленные исследования были проведены в попытке определить стоимость простоя для различных систем на предприятиях. Эти исследования показывают, что понесенные убытки многофакторные и включают в себя не только непосредственные, краткосрочные потери но и долгосрочный нематериальный эффект. Как только RTO для определенной задачи будет рассчитан (стал известен), можно переходить к поиску технического решения для аварийного восстановления сопоставимого с последствиями в данной ситуации.
Например, если RTO для базы данных 1-2 часа, то оптимальным решением для хранения резервной копии будут локальные или сетевые диски. Если RTO составляет 1 сутки и более, использование ленточных носителей или внешнего хранилища на удаленном сервере или в облаке будет более практичным решением. Соответственно зная RTO можно объективно подходить к решению проблемы.

RPO: ДОПУСТИМАЯ ТОЧКА ВОССТАНОВЛЕНИЯ (допустимые потери данных)

Допустимая точка восстановления – это максимальный отрезок времени, за который могут быть потеряны данные в следствии сбоя/аварии. RPO выражается в секундах, минутах, часах и рассчитывается начиная с момента сбоя до ближайшей точки самосахранения (создания резервной копии). Это важный параметр при планировании аварийного восстановления. Как только RPO определен, можно рассчитать с какой минимальной частотой необходимо делать резервные копии.

Точно выполненный анализ рисков RA и их влияние BIA на бизнес помогают определить, где сосредоточить главные ресурсы для достижения необходимых значений RTO / RPO в процессе планирования аварийного восстановления.

Стратегия аварийного восстановления

Стратегия восстановления является основой для формирования плана реагирования на инцидент. При определении стратегии аварийного восстановления следует учитывать:

Бюджет проекта
Доступные ресурсы - люди и объекты инфраструктуры
Позиция руководства по рискам
Технологии резервного копирования и восстановления

ПЛАН АВАРИЙНОГО ВОССТАНОВЛЕНИЯ

План аварийного восстановления (Disaster Recovery Plan – DRP) это документ с инструкциями для решения аварийных ситуаций, выполняя которые организация может оперативно продолжить работу в информационных системах и базах данных или частично восстановить критически важные функции. В плане должны быть определены роли и обязанности всех членов команды ответственных за аварийное восстановление, а так же указаны условия для запуска плана в действие. План должен содержать подробное описание действий по реагированию на инциденты для восстановления. План аварийного восстановления может иметь несколько версий в зависимости от масштаба и степени сложности инцидента. Для создания DRP можно воспользоваться бесплатными ресурсами, например:

https://www.ibm.com/docs/ru/i/7.4?topic=system-example-disaster-recovery-plan

Аварийное восстановление виртуальных систем

Виртуализация предоставляет возможности для ускорения процесса восстановления после сбоев более эффективным и простым способом. Виртуальная среда может создать новые экземпляры виртуальной машины (VM) в течение нескольких минут и обеспечить восстановление приложений с высокой доступностью. Тестирование также может быть легко выполнено, но план должен включать возможность проверки того, что приложения могут быть запущены в режиме аварийного восстановления и возвращены к нормальной работе в RPO и RTO.

Термины и определения

Дедупликация данных

План резервного копирования

Виды резервного копирования

Аварийное восстановление | Disaster Recovery

Моментальный снимок | Snapshot

Неизменяемые резервные копии и хранилище | Immutable Backup and Storage

Транспортные режимы | Transport Modes

Окно резервного копирования | Backup Window

Служба теневого копирования | Volume Shadow Copy Service