Информационное сообщение!
Товар в корзину добавлен. Перейти к оформлению заказа?
Нет
Да
Информационное сообщение!
Ваш заказ успешно создан. На указанный E-mail был отправлен счет для оплаты
Ок

Аварийное восстановление (disaster recovery)

Дата публикации: 1 января 2020 г.

* * *

Контрольный список целей аварийного восстановления включает в себя определение критически важных ИТ-сервисов, сетей и т.д. (объектов воздействия), а так же определение приоритетов RTO и предпринятых действий для восстановления работоспособности (перезапуск, перенастройка и восстановление систем и сетей). Все ответственные сотрудники должны знать свои обязанности в случае непредвиденной ситуации.

Процесс планирования аварийного восстановления включает в себя не просто создание документа, это комплекс действий направленных для борьбы с инцидентом. Контрольный список DRP включает в себя следующие этапы:

  • установление сферы деятельности
  • сбор документации по инфраструктуре
  • выявление наиболее серьезных угроз, уязвимостей и наиболее важных активов
  • анализ аварийных инцидентов и сбоев, а также порядок их решения
  • определение текущих стратегий аварийного восстановления
  • определение группы реагирования на чрезвычайные ситуации
  • проведение разбора и утверждение плана аварийного восстановления
  • тестирование плана
  • обновление плана
  • внедрение аудита DRP
План аварийного восстановления

План аварийного восстановления (disaster recovery plan – DRP) это документированный поэтапный план с инструкциями для аварийного восстановления. Этот пошаговый план, состоящий из этапов для решения аварийных инцидентов, который позволяет организации оперативно продолжить работу в информационных системах или быстро восстановить критически важные функции.

Перед составлением детального плана, необходимо выполнить расчет основных показателей:

  • Анализ воздействия на бизнес (business impact analysis - BIA)
  • Анализ рисков (Risk Analysis - RA)
  • Допустимое время восстановления (recovery time objective - RTO)
  • Допустимая (критическая) точка восстановления (recovery point objective - RPO)

BIA: Анализ воздействия на бизнес

В рамках плана аварийного восстановления показатель BIA, определяет затраты (убытки, ущерб) вызванные последствием сбоя. В расчете BIA дается количественная оценка важности бизнес-процессов и распределение средств для принятия мер по их защите и устранению. Последствия сбоев будут оцениваться с точки зрения их воздействия на безопасность, финансы, маркетинг, деловую репутация, уголовную или административную ответственность перед законом. Все возможные воздействия выражаются в денежном исчислении для сравнения и ранжирования. Например, бизнес может потратить в три раза больше средств на маркетинг после инцидента, чтобы восстановить доверие клиентов и репутацию. BIA должен помогать в создании стратегий аварийного восстановления, выбору приоритетов, требований к ресурсам и времени.

RA: Анализ рисков

Анализ рисков - это процесс выявления и анализа потенциальных проблем, которые могут негативно повлиять на ключевые бизнес-процессы или критически важные функции системы, чтобы помочь организациям избежать или смягчить эти риски. Организации используют анализ рисков для:

  • Предупреждения и уменьшения последствий от вредных результатов неблагоприятных событий
  • Планирования решения в случаи отказа или потери сервиса, выхода из строя оборудования в результате неблагоприятных явлений, как природных, так и человеческих
  • Оценки сбалансированности потенциальных рисков

RTO: Допустимое время восстановления

Допустимое время восстановления - это максимально допустимый период времени, в течение которого сервис, сеть или информационная система могут оставаться неработоспособными. Несоблюдение RTO приводит к критическому нарушению рабочего процесса и потери доходов в единицу времени в зависимости от затронутого оборудования и систем в результате катастрофы. RTO измеряется в секундах, минутах, часах или днях и является важным показателем при планировании аварийного восстановления. Многочисленные исследования были проведены в попытке определить стоимость простоя для различных систем на предприятиях. Эти исследования показывают, что стоимость зависит от долгосрочных и нематериальных эффектов, а также от непосредственных, краткосрочных или ощутимых факторов. Как только RTO для определенной системы будет рассчитан, технические специалисты смогут предложить решения аварийного восстановления лучше всего подходящее для данной ситуации.
Например, если RTO для информационной системы равно одному часу, то выполнение и хранение резервной копии на внешних жестких дисках будет являться оптимальным решением. Если RTO составляет 2-3 дня, может быть более практичным использование ленточных носителей или внешнего хранилища на удаленном сервере или в облаке.

RPO: Допустимая точка восстановления (допустимые потери данных)

Допустимая точка восстановления – это максимальный период времени, за который могут быть потеряны данные из-за сбоя. RPO выражается во времени с момента, когда происходит сбой, и может рассчитываться в секундах, минутах, часах или днях. Это важный параметр при планировании аварийного восстановления (DRP). Как только RPO определен, можно рассчитать с какой минимальной частотой необходимо делать резервные копии.

Заранее выполненный анализ рисков и влияния на бизнес помогают определить, где сосредоточить ресурсы в процессе планирования аварийного восстановления. BIA идентифицирует воздействие аварийных инцидентов и является отправной точкой для определения риска в контексте аварийного восстановления. Он также генерирует RTO и RPO. RA идентифицирует угрозы и уязвимости, которые могут нарушить работу систем и процессов, выделенных в BIA.

Исходя из стратегии восстановления, формируют план реагирования на инцидент, а планы аварийного восстановления описывают, как организация должна действовать в случаи инцидента

При определении стратегии восстановления следует учитыват:

  • бюджет
  • ресурсы - люди и объекты инфраструктуры
  • позиция руководства по рискам
  • технологии восстановления
  • данные

ПЛАН АВАРИЙНОГО ВОССТАНОВЛЕНИЯ

В плане должны быть определены роли и обязанности всех членов команды ответственных за аварийное восстановление, а так же намечены условия для запуска плана в действие. План должен содержать подробное описание действий по реагированию на инциденты для восстановления. План аварийного восстановления может варьироваться по степени сложности ситуации, от базового до всеобъемлющего. Для создания DRP можно воспользоваться бесплатными ресурсами, например:

https://www.template.net/business/plan-templates/sample-disaster-recovery-plan-examples/
https://www.ibm.com/support/knowledgecenter/ru/ssw_ibm_i_73/rzarm/rzarmdisastr.htm

Рассмотрим несколько примеров плана аварийного восстановления адаптированных для определенной среды.

План аварийного восстановления виртуальных систем

Виртуализация предоставляет возможности для ускорения процесса восстановления после сбоев более эффективным и простым способом. Виртуальная среда может создать новые экземпляры виртуальной машины (VM) в течение нескольких минут и обеспечить восстановление приложений с высокой доступностью. Тестирование также может быть легко выполнено, но план должен включать возможность проверки того, что приложения могут быть запущены в режиме аварийного восстановления и возвращены к нормальной работе в RPO и RTO.