Содержание:
Аварийное восстановление | Disaster Recovery
Дата публикации: 1 января 2020 г.
* * *
Процесс планирования аварийного восстановления включает в себя не просто создание документа (плана), это комплекс заранее согласованных действий направленных на снижение последствий аварии. Disaster Recovery Plan включает в себя следующие этапы разработки:
- установление сфер/объектов защиты при аварийных инцидентах
- сбор документации о процессах и инфраструктуре
- расстановка приоритетов: выявление критических угроз, уязвимостей и наиболее важных активов
- оценка и анализ аварийных инцидентов / сбоев, а также последовательность их решения
- определение стратегии аварийного восстановления
- определение ролей и обязанностей в чрезвычайных ситуациях
- разбор и утверждение плана аварийного восстановления с группой
- тестирование и испытание плана
- обновление плана
- аудит Disaster Recovery Plan
Контрольный список целей аварийного восстановления включает в себя определение критически важных объектов защиты: ИТ-сервисов, сетей и данных, а так же расчет значений основных показателей BIA, RA, RTO и RPO для разработки стратегии восстановления работоспособности (перезапуск, установка, настройка и восстановление систем, данных и сетей) по каждому объекту. Перед составлением детального плана, необходимо выполнить расчет основных показателей:
- Анализ воздействия на бизнес (business impact analysis - BIA)
- Анализ рисков (Risk Analysis - RA)
- Допустимое время восстановления (recovery time objective - RTO)
- Допустимая (критическая) точка восстановления (recovery point objective - RPO)
Значение RTO / RPO | Объекты воздействия | Стратегия |
От нескольких секунд до минут | Критически важные системы и базы данных высокой доступности | Репликация и кластеризация с мгновенным переключением на резервный узел (failover) |
От нескольких минут до пары часов | Виртуальные машины, базы данных, системы обмена сообщениями. | Горячее резервное копирование с оперативным восстановлением работы системы или базы данных на новом или том же устройстве |
От нескольких часов до дней | Файловые сервера, рабочие станции | Холодное резервное копирование редко изменяющихся данных, поиск и восстановление отдельных файлов, почтовых сообщений |
BIA: АНАЛИЗ ВОЗДЕЙСТВИЯ НА БИЗНЕС
В плане аварийного восстановления показатель BIA, дает оценку затратам (убыткам, ущербу) вызванным последствием сбоя. При расчете BIA показывает количественную оценку важности бизнес-процессов и распределение средств для принятия мер по их защите и устранению. Последствия сбоев будут оцениваться с точки зрения их воздействия на безопасность, финансы, маркетинг, деловую репутация, уголовную или административную ответственность перед законом. Для сравнительного анализа все возможные воздействия выражаются в денежном исчислении и распределяются в порядке значимости. Например, в результате инцидента бизнес может потратить в три раза больше средств на маркетинг для восстановления доверия клиентов и репутации компании, чем меры предпринятые для защиты. BIA помогает в создании стратегии аварийного восстановления, выбору приоритетов, а так же требований к ресурсам и времени.
RA: АНАЛИЗ РИСКОВ
Анализ рисков - это процесс выявления и анализа потенциальных проблем, которые могут негативно повлиять на ключевые бизнес-процессы или критически важные функции системы, чтобы помочь организациям избежать или смягчить эти риски. Организации используют анализ рисков для:
- Оценки и сравнение потенциальных рисков
- Создания плана на случай отказа или временной потери сервиса
- Предупреждения и уменьшения последствий аварийных инцидентов
RTO: ДОПУСТИМОЕ ВРЕМЯ ВОССТАНОВЛЕНИЯ
Допустимое время восстановления - это максимально допустимый период времени, в течение которого сеть, сервер или база данных информационной системы могут оставаться неработоспособными. Выход за рамки RTO приводит к критическому нарушению рабочего процесса и потери доходов компании выраженных в единицу времени в зависимости от последствий аварийной ситуации. RTO измеряется в секундах, минутах, часах или днях и является важным показателем при планировании аварийного восстановления. Многочисленные исследования были проведены в попытке определить стоимость простоя для различных систем на предприятиях. Эти исследования показывают, что понесенные убытки многофакторные и включают в себя не только непосредственные, краткосрочные потери но и долгосрочный нематериальный эффект. Как только RTO для определенной задачи будет рассчитан (стал известен), можно переходить к поиску технического решения для аварийного восстановления сопоставимого с последствиями в данной ситуации.
Например, если RTO для базы данных 1-2 часа, то оптимальным решением для хранения резервной копии будут локальные или сетевые диски. Если RTO составляет 1 сутки и более, использование ленточных носителей или внешнего хранилища на удаленном сервере или в облаке будет более практичным решением. Соответственно зная RTO можно объективно подходить к решению проблемы.
RPO: ДОПУСТИМАЯ ТОЧКА ВОССТАНОВЛЕНИЯ (допустимые потери данных)
Допустимая точка восстановления – это максимальный отрезок времени, за который могут быть потеряны данные в следствии сбоя/аварии. RPO выражается в секундах, минутах, часах и рассчитывается начиная с момента сбоя до ближайшей точки самосахранения (создания резервной копии). Это важный параметр при планировании аварийного восстановления. Как только RPO определен, можно рассчитать с какой минимальной частотой необходимо делать резервные копии.
Точно выполненный анализ рисков RA и их влияние BIA на бизнес помогают определить, где сосредоточить главные ресурсы для достижения необходимых значений RTO / RPO в процессе планирования аварийного восстановления.
Стратегия аварийного восстановления
Стратегия восстановления является основой для формирования плана реагирования на инцидент. При определении стратегии аварийного восстановления следует учитывать:
- Бюджет проекта
- Доступные ресурсы - люди и объекты инфраструктуры
- Позиция руководства по рискам
- Технологии резервного копирования и восстановления
ПЛАН АВАРИЙНОГО ВОССТАНОВЛЕНИЯ
План аварийного восстановления (Disaster Recovery Plan – DRP) это документ с инструкциями для решения аварийных ситуаций, выполняя которые организация может оперативно продолжить работу в информационных системах и базах данных или частично восстановить критически важные функции. В плане должны быть определены роли и обязанности всех членов команды ответственных за аварийное восстановление, а так же указаны условия для запуска плана в действие. План должен содержать подробное описание действий по реагированию на инциденты для восстановления. План аварийного восстановления может иметь несколько версий в зависимости от масштаба и степени сложности инцидента. Для создания DRP можно воспользоваться бесплатными ресурсами, например:
https://www.ibm.com/docs/ru/i/7.4?topic=system-example-disaster-recovery-plan
Аварийное восстановление виртуальных систем
Виртуализация предоставляет возможности для ускорения процесса восстановления после сбоев более эффективным и простым способом. Виртуальная среда может создать новые экземпляры виртуальной машины (VM) в течение нескольких минут и обеспечить восстановление приложений с высокой доступностью. Тестирование также может быть легко выполнено, но план должен включать возможность проверки того, что приложения могут быть запущены в режиме аварийного восстановления и возвращены к нормальной работе в RPO и RTO.