- ИТ-инфраструктура
- DR
- ИТ-инфраструктура
- DR
Задачи
Заказчик обратился с просьбой проработать варианты по аварийному восстановлению (Disaster Recovery) его сайта при сбое оборудования, по вине персонала и прочих проблемах.
У компании была собственная On-Premise инфраструктура с резервными копиями на удаленной площадке. При аварии восстановление работоспособности систем осуществлялось вручную за счет перехода на резервную копию, что занимало около трех часов. Все это время сайт был недоступным, из-за чего клиенты интернет-магазина не могли оформить покупку. Компания несла финансовые и репутационные потери.
Заказчик нуждался в решении, которое бы помогло:
- сделать работу сайта непрерывной,
- сократить время простоя сайта в случае сбоя,
- минимизировать участие человека в восстановлении систем.
Выбор решения
Для критичного к простою приложения мы предложили два сценария:
- Создать копии виртуальных машин (ВМ) заказчика в нашем облаке и настроить асинхронную репликацию данных. В случае аварии сайт будет доступен на резервной площадке. RTO (Recovery time objective, «целевое время восстановления») этого решения: 30 минут.
- Использовать катастрофоустойчивое облако на базе двух площадок, между которыми организована синхронная репликация. Вся информация при этом одновременно записывается на локальную и удаленную СХД. Если из строя выходит основная площадка, то ВМ продолжают работать на второй площадке. RTO этого решения: 2-2,5 минуты.
В первом случае процесс восстановления должен запускаться вручную, поэтому есть риск, что процесс может затянуться из-за человеческого фактора. Но этот вариант дешевле второго.
Заказчик просчитал возможные убытки бизнеса от более дешевого решения, сравнил решения по показателям RTO и остановил свой выбор на втором варианте — надежном катастрофоустойчивом облаке.
Как решали
Для перехода на выбранное решение требовалась миграция с On-Premise площадки клиента в защищенное облако нового поколения NGcloud. Клиент отказался от своей физической инфраструктуры, но оставил у себя площадку для хранения бэкапов.
Разработка сценария
Переход в облако мы предложили осуществить с помощью vCloud Availability. Этот инструмент гарантирует миграцию в облако с минимальным простоем. Наши инженеры настроили сетевую связность между облаком и инфраструктурой клиента. Создали тестовое задание. Провели тестовую миграцию и убедились в корректной работе сценария.
Миграция за 15 минут
Выбрали время суток с наименьшей нагрузкой на сайт и провели миграцию в облако с минимальным простоем.
DR-план
Наши архитекторы совместно с заказчиком разработали план для послеаварийного восстановления в случае сбоя работы сайта. Его основные пункты:
- Описание инфраструктуры со ссылками на документацию.
- Персонал, включая внешних подрядчиков, их роли с наглядной схемой взаимодействия.
- Сценарий возможных аварий и последовательность действий при них. Отдельно описываются ситуации, не требующие активации DR-плана.
- Процессы по внесению изменений в DR-план для поддержания актуальности. Вносить изменения в план нужно постоянно, потому что бизнес растет, меняется инфраструктура под нужды компании, могут меняться ответственные сотрудники и контакты.
Провели совместное тестирование плана и убедились в корректной работе всех служб.
Что получил клиент
Обеспечили гарантированную непрерывность работы онлайн-сервиса заказчика. Теперь потери бизнеса от аварий сводятся к минимуму.
Разработали надежный план действий всех необходимых служб для вероятных аварийных ситуаций. Сократили возможное время простоя в 50 раз по сравнению с исходными данными.
Клиент получил отказоустойчивую облачную инфраструктуру на самом современном физическом оборудовании в территориально распределенных дата-центрах Tier III с профессиональной техподдержкой 24/7.