Информационное сообщение!
Товар в корзину добавлен. Перейти к оформлению заказа?
Нет
Да
Информационное сообщение!
Ваш заказ успешно создан. На указанный E-mail был отправлен счет для оплаты
Ок

Дата публикации: 3 апреля 2018 г.

* * *

Данный обзор посвящен такой важной теме, как дедупликация данных. Разберем следующие вопросы: что такое дедупликация? как она работает? какие минусы и плюсы есть у этой технологии? А также рассмотрим практическое применение дедупликации в резервном копировании.

ЧТО ТАКОЕ ДЕДУПЛИКАЦИЯ?

Дедупликация данных - это процесс, который устраняет избыточные копии данных и снижает накладные расходы на хранение информации. Таким образом, эта технология направлена на оптимизацию емкости хранилища. Не зависимо от метода, дедупликация данных обеспечивает сохранение на носители только одной уникальной единицы информации. В связи с этим, важным моментом данной технологии является уровень детализации. Дедупликация может выполняться на уровне файлов, блоков и байтов. Каждый способ имеет свои достоинства и недостатки.

* * *

СПОСОБЫ ДЕДУПЛИКАЦИИ

Дедупликация на уровне файлов, сравнивает файл с уже сохранёнными файлами. Если файл уникален, он сохраняется; если такой файл уже существует на устройстве - сохраняется только указатель (линк) на существующий файл, таким образом, всегда сохраняется только один экземпляр файла, а последующие копии линкуются на исходный файл. Плюсы этого метода - это простота, скорость и почти без снижения производительности.

Дедупликация на уровне блоков является самым распространенным способом дедупликации, который анализирует фрагмент данных (файл) и сохраняет только уникальные повторения каждого блока. Блок это логическая единица, поэтому он может иметь разный размер (длину). Все фрагменты данных обрабатываются с использованием хеш-алгоритма, такого как MD5 или SHA-1. Этот алгоритм создает и хранит в базе дедупликации идентификатор (сигнатуру) для каждого уникального блока.

<Блочная дедупликация данных

Таким образом, если в течении жизненного цикла, файл изменился, в хранилище попадают только его изменённые блоки, а не весь файл, даже если изменилось только несколько байт.

Существует два вида блочной дедупликациий с постоянной и переменной длиной блоков. Дедупликация с переменной длиной, разбивает файлы на блоки разных размеров, что позволят получить более высокий коэффициент по уменьшению хранения данных, чем блоки фиксированной длины. К недостаткам дедупликации с переменной диной блоков относят более низкую скорость работы и создание большого количества метаданных.

Дедупликация на уровне байта по принципам своей работы похожа с дедупликацией на уровне блоков, только вместо блоков идет побайтное сравнение новых и измененных файлов. Этот метод является единственным методом, который гарантирует полное устранение дублирования данных, но он имеет очень высокие требования к производительности.

Делая вывод из вышесказанного, можно утверждать, что дедупликация на блочном уровне самые оптимальный способ, он значительно эффективнее, чем дедупликация на файловом уровне и не такой ресурснозатратный, как байтовый. Однако так же требует серьезной вычислительной мощности.

* * *

ДЕДУПЛИКАЦИЯ и РЕЗЕРВНОЕ КОПИРОВАНИЕ

В резервном копировании, по мимо выше описанных способов, дедупликация может отличаться по месту выполнения, на источнике данных (клиенте), на стороне устройства хранения (сервере) или как совместная работа клиент-сервера.

Дедупликация на стороне клиента выполняется непосредственно на источнике, поэтому используя только его вычислительные ресурсы. После выполнения дедупликации данные передаются на устройство хранения данных. Дедупликация на стороне клиента всегда реализована только с помощью программного обеспечения. Недостатком данного способа является высокая нагрузка на процессор и оперативную память клиента, а преимуществом возможность передачи данных по сетям с низкой пропускной способностью.

Дедупликация на стороне сервера возможна в случае, когда данные передаются на сервер полностью в необработанном (исходном) виде (без сжатия или кодирования). Дедупликация на сервеределиться на аппаратную и программную. Аппаратная выполняется с помощью устройства дедупликации, которое является отдельным аппаратным решением, объединяющее логику дедупликации и восстановления данных. Преимуществом аппаратного способа является возможность передать всю нагрузку по выполнению дедупликации с сервера на отдельное устройство, и сделать саму дедупликацию полностью прозрачным процессом. Программная дедупликации использует специализированный софт, который берет всю работу по дедупликации на себя. Но в этом случае необходимо учитывать возникающую нагрузку на сервердля выполнения дедупликации.

При совместной клиент-серверной дедупликации процессы выполняются как на клиенте, так и на сервере. Перед тем как отправить данные с клиента на сервер два устройства пытаются сначала выяснить какие данные уже есть в хранилище, для этого клиент вычисляет ХЭШ для каждого блока данных и отправляет их на серверв виде файла, как последовательность хэш ключей. Сервер принимает и сравнивает полученные хэш-ключи со своей ХЭШ-таблицей, после этого отправляет ответ клиенту в виде нового списка ХЭШ-ключей, которых у него нет в таблице. И только после этого, клиент отправляет на сервер блоки с данными. Эффективность данного способа достигается за счет передачи обработки данных на сервер и низкой загрузкой сети, так как передаются только уникальные данные.

* * *

НЕДОСТАТКИ ДЕДУПЛИКАЦИИ

Основной проблемой дедупликации является конфликт данных, который может возникнуть, если два различных блока генерируют один и тот же хэш-ключ. В этом случае возникает повреждение базы данных, что влечет сбой при восстановлении резервной копии. Чем больше база данных и выше частота изменений, тем вероятней возникновение конфликтных ситуаций. Решением данной проблемы может быть увеличение хэш пространства, так как, чем больше хэш ключей, тем меньше вероятность конфликта. На данный момент используют 160-битный ключ, генерируемый алгоритмом SHA-1. Это 2160=1.5 х 1048 уникальных хэш-ключей.

ПЛЮСЫ ДЕДУПЛИКАЦИИ

На первом месте стоит эффективное использование места для хранения данных. По информации от компании EMC дедупликация данных в среднем снижает потребности в емкости хранения от 10 до 30 раз. Очевидно, это имеет большую экономическую выгоду. Так же дедупликацию выгодно использовать при низкой пропускной способности сети, так как передаются только уникальные данные. Касаемо резервного копирования дедупликация дает возможность чаще создавать резервные копии и хранить их более длительное время.

* * *

BACKUP EXEC DEDUPLICATION

Backup Exec deduplication выполняет тремя выше описанными методами: на стороне сервера управления (программная); на стороне клиента (для этого должен быть установлен агент Backup Exec на клиенте) и третий метод - дедупликация на стороне устройства OpenStorage (аппаратная). Для каждого способа у Backup Execесть определенные требования к оборудованию, с ними можно познакомится в Руководство администратора Backup Exec

Рассмотрим более подробно настройку дедупликации на сервере Backup Execдля локального диска или диска презентованного дисковым массивом (без дедупликации на уровне массива). Для этого нам необходимо создать Storage c функцией дедупликации.

  1. Вкладка Storage > Configure Storage > Disk-based storage
    Настройка дедупликации на сервере Backup Exec
  2. Выбираем нужный нам параметр Deduplication disk storage
    Backup Exec Deduplication disk storage
  3. Далее идет еще несколько незначительных вопросов и на этом всё: мы создали диск с дедупликацией.

На этом настройку можно считать выполненной, остается только создать задания для бэкапа. Важно помнить, что на сервере BackupExec может быть только один deduplication disk storage, это необходимо помнить при планировании резервного копирования.

В случае, когда используется устройство OpenStorage (с поддержкой дедупликации на стороне клиента) система позволяет выполнить дедупликацию на стороне клиента в обход сервера BackupExec. Для этого необходимо открыть бэкап-задание нужного устройства и в свойствах на вкладке Storage указать «Enable the remote computer to directly access the storage device and to perform client-side deduplication, if it is supported».

Backup Exec OpenStorage

Не забываем после этого перезапустить службы Backup ExecServices, а так же установить агента Backup Exec на стороне клиента. И у нас остается второй вариант, когда к серверу подключено устройство OpenStorage - это выполнения дедупликации на стороне сервера Backup Exeс. Для этого необходимо выбрать в настройках задания, как показано на рисунке выше вариант «Enable the remote computer to access the storage device through the Backup Execserver and to perfom Backup Exec server-side deduplication if it is supported».

Система Veritas Backup Exec предоставляет разные возможности для дупликации данных. Поэтому ещё на стадии проектирования системы резервного копирования важно тщательно подходить к планированию, а так же иметь полное представление о вашей инфраструктуре, понимать все узкие места. Всё это необходимо учитывать для оптимального и эффективного использования ресурсов, так как это может дать существенную экономию бюджета и выигрыш по скорости и глубине резервного копирования.

Используемая в статье информация взята из официальных источников:
Backup Exec 20.3 Best Practices
https://www.emc.com/corporate/glossary/data-deduplication.htm
https://www.netapp.com/us/info/what-is-data-deduplication.aspx