DRaaS — аварийное восстановление как услуга для бизнеса | Блог

Рубрика:

безопасность

DRaaS (DR) — сервис аварийного восстановления IT-инфраструктуры после программных и аппаратных сбоев, техногенных аварий, потери, повреждения данных из-за вредоносного ПО и человеческого фактора. Классическая модель требует физического резервирования в дублирующем ЦОДе или на собственной площадке. Модель аварийного восстановления как сервиса использует технологию репликации ИТ-инфраструктуры в облако. Об этой модели мы и поговорим.

Ключевые метрики DRaaS

Эффективность DRaaS определяют два параметра — RTO и RPO.

RTO — аббревиатура термина recovery time objective, который дословно переводится как «плановое время восстановления». Это показатель скорости восстановления системы. Другими словами, если RTO заявлен три часа, инфраструктура заработает в течение трех часов.

RPO или recovery point objective — промежуток времени с допустимой потерей данных. То есть, RPO три часа допускает потерю данных не более чем за три часа до инцидента. Не факт, что в результате сбоя будут утеряны данные за все три часа. Может быть только за 10 или 30 минут, однако RPO определяет максимально допустимые значения.

Как найти баланс стоимости и эффективности Disaster Recovery (DR)

Чем меньше RTO и RPO, тем дороже DRaaS. Система, которая восстанавливается в течение нескольких секунд и теряет данные за 1-5 минут до сбоя, требует дублирования ресурсов и технологии синхронной репликации. Это сложное и дорогое решение. Для некоторых бизнесов его стоимость превысит убытки от простоя.

Впрочем, в области защиты информации некорректно оперировать терминами «дорогое» или «дешевое» решение. Решение должно быть экономически обоснованным. Стоимость Disaster Recovery должна быть меньше, чем потенциальный убыток от сбоя или потери данных.

Для иллюстрации разберем пример с отказом веб-сервера. Допустим, из-за отказа веб-сервера сайт клининговой компании не работал 8 часов. У сайта имиджевая задача, он не является основным каналом продаж. Пока сайт не работал, компания в нормальном режиме обслуживала текущие контракты, а менеджеры обзванивали «теплые базы» и собирали заявки по телефону. Доходы не упали.

Отказ веб-сервера интернет-магазина, особенно во время распродажи, приведет к серьезным убыткам: сайт останется без посетителей, бизнес — без покупателей. Чистый денежный поток закономерно снизится.

Одни и те же сбои в разных бизнесах ведут к разным результатам. Чтобы найти баланс стоимости и эффективности DRaaS в каждом конкретном случае, оценивают:

Сегменты инфраструктуры, простой которых приведет к прямым и косвенным финансовым потерям. Для одного бизнеса это будет ERP-система, 1С, система аналитики, базы данных. Для другого — CRM и почтовый/ файловый сервисы;
Объем данных, угрожающий репутационными и финансовыми рисками. Опять-таки, для транспортной компании это могут быть данные за 5 часов. Для банка — за 5 минут.
Последствия сбоев и потерь в денежном выражении. В идеале, по каждому сервису должно быть понимание: «если процесс не будет работать больше X минут, мы потеряем ± Y тыс.».

По результатам определяется, как вероятные потери соотносятся с конкретными показателями RTO и RPO. Исходя из соотношения выбирают одно из трех DR-решений.

Решения для аварийного восстановления

1. Бэкап в облачное хранилище по заданному расписанию. Это может быть 1 раз в 24, 12, 6 часов. Расписание бэкапов и запуск восстановления настраиваются непосредственно в консоли управления резервным копированием. Облачный репозиторий развернут в дата-центре уровня Tier III с дублированием сетевых компонентов. Получается так же надежно, как в резервном ЦОДе, но дешевле, потому что в облаке.

Схема проста: система создает архив виртуальной машины (ВМ) и сохраняет дубликат в репозитории. При сбое из облачного хранилища восстанавливается последняя из сохраненных копий. На распаковку данных или архива ВМ уходит какое-то время. Время нужно и на запуск. Именно поэтому у технологии бэкапов самый большой показатель RTO — несколько часов.

Бэкапы в облачное хранилище — самое недорогое решение с оплатой за использованные ресурсы. Оно подходит для некритичных к простою сервисов и компаний, чья деятельность слабо коррелирует с надежностью цифровых сред и инструментов.

2. Асинхронная репликация — более продвинутый вариант Disaster Recovery DR. По этой схеме каждые несколько минут копии виртуальных машин отправляются на резервную площадку. Настройками копирования и восстановления системы клиент управляет самостоятельно. Зная допустимый объем потери данных, он задает RPO в политике репликации. RTO этого решения в реализации Nubes составляет от 30 минут, что удовлетворяет требованиям большей части критичных сервисов.

Аварийное восстановление DR по схеме асинхронной репликации мы реализуем на решениях VMware vCloud Availability и Veeam Cloud Connect Replication. В первом случае для управления репликацией используется консоль Cloud Director. Во втором — специальный модуль Veeam с управлением через веб-панель.

3. Синхронная репликация поддерживает зеркалирование на уровне гипервизора с решением VMware vSphere или на уровне СХД с инструментарием NetApp. Решение разворачивается в облаках двух дата-центров уровняс Tier III. Данные передаются непрерывно, синхронно с работой виртуальных машин на основной площадке. Таким образом, в любой момент времени на дублирующей платформе есть актуальная копия ВМ.

По сути, это единственное по-настоящему катастрофоустойчивое решение проблем с электропитанием, природными катаклизмами, пожарами и сбоями из-за кибер-угроз. Благодаря RTO 2,5 минуты, DRaaS по схеме синхронной репликации подходит банкам, крупным ИТ-компаниям, медицинским организациям, госучреждениям и аналитическим платформам, оперирующим BigData.

Как видите, выбор модели, решений и настроек DRaaS — дело тонкое и деликатное. Здесь нет единой схемы или базового шаблона. Каждый параметр подбирается под специфику, масштаб, бюджет и бизнес-сервисы компании. Есть только одно очевидное правило — чем сложней IT-инфраструктура, тем больше степеней защиты должен обеспечивать сервис аварийного восстановления. Наша компания готова предложить индивидуальный подход к оценке бизнес-критичных процессов, расчету метрик и выбору экономически рентабельного DR решения.

Облачный сервис Disaster Recovery