Кейс. Как мы обеспечили непрерывность работы интернет-магазина | Блог

Задачи:

ИТ-инфраструктура
DR

Клиент

Крупный интернет-магазин с собственной торговой онлайн-площадкой.

Задачи

Заказчик обратился с просьбой проработать варианты по аварийному восстановлению (Disaster Recovery) его сайта при сбое оборудования, по вине персонала и прочих проблемах.

У компании была собственная On-Premise инфраструктура с резервными копиями на удаленной площадке. При аварии восстановление работоспособности систем осуществлялось вручную за счет перехода на резервную копию, что занимало около трех часов. Все это время сайт был недоступным, из-за чего клиенты интернет-магазина не могли оформить покупку. Компания несла финансовые и репутационные потери.

Заказчик нуждался в решении, которое бы помогло:

сделать работу сайта непрерывной,
сократить время простоя сайта в случае сбоя,
минимизировать участие человека в восстановлении систем.

Выбор решения

Для критичного к простою приложения мы предложили два сценария:

Создать копии виртуальных машин (ВМ) заказчика в нашем облаке и настроить асинхронную репликацию данных. В случае аварии сайт будет доступен на резервной площадке. RTO (Recovery time objective, «целевое время восстановления») этого решения: 30 минут.
Использовать катастрофоустойчивое облако на базе двух площадок, между которыми организована синхронная репликация. Вся информация при этом одновременно записывается на локальную и удаленную СХД. Если из строя выходит основная площадка, то ВМ продолжают работать на второй площадке. RTO этого решения: 2-2,5 минуты.

В первом случае процесс восстановления должен запускаться вручную, поэтому есть риск, что процесс может затянуться из-за человеческого фактора. Но этот вариант дешевле второго.

Заказчик просчитал возможные убытки бизнеса от более дешевого решения, сравнил решения по показателям RTO и остановил свой выбор на втором варианте — надежном катастрофоустойчивом облаке.

Как решали

Для перехода на выбранное решение требовалась миграция с On-Premise площадки клиента в защищенное облако нового поколения NGcloud. Клиент отказался от своей физической инфраструктуры, но оставил у себя площадку для хранения бэкапов.

Разработка сценария

Переход в облако мы предложили осуществить с помощью vCloud Availability. Этот инструмент гарантирует миграцию в облако с минимальным простоем. Наши инженеры настроили сетевую связность между облаком и инфраструктурой клиента. Создали тестовое задание. Провели тестовую миграцию и убедились в корректной работе сценария.

Миграция за 15 минут

Выбрали время суток с наименьшей нагрузкой на сайт и провели миграцию в облако с минимальным простоем.

DR-план

Наши архитекторы совместно с заказчиком разработали план для послеаварийного восстановления в случае сбоя работы сайта. Его основные пункты:

Описание инфраструктуры со ссылками на документацию.
Персонал, включая внешних подрядчиков, их роли с наглядной схемой взаимодействия.
Сценарий возможных аварий и последовательность действий при них. Отдельно описываются ситуации, не требующие активации DR-плана.
Процессы по внесению изменений в DR-план для поддержания актуальности. Вносить изменения в план нужно постоянно, потому что бизнес растет, меняется инфраструктура под нужды компании, могут меняться ответственные сотрудники и контакты.

Провели совместное тестирование плана и убедились в корректной работе всех служб.

Что получил клиент

Экономия и снижение потерь

Обеспечили гарантированную непрерывность работы онлайн-сервиса заказчика. Теперь потери бизнеса от аварий сводятся к минимуму.

Disaster Recovery Plan

Разработали надежный план действий всех необходимых служб для вероятных аварийных ситуаций. Сократили возможное время простоя в 50 раз по сравнению с исходными данными.

Новая IT-инфраструктура

Клиент получил отказоустойчивую облачную инфраструктуру на самом современном физическом оборудовании в территориально распределенных дата-центрах Tier III с профессиональной техподдержкой 24/7.

Сервисы, задействованные в кейсе

Облако NGcloud Аренда безопасного облака нового поколения (IaaS) аттестованного по 152-ФЗ (УЗ-1), сертифицированного по PCI DSS 4.0, ГОСТ 57580, со встроенными механизмами защиты. Подробнее

Disaster Recovery (DR) Резервная облачная инфраструктура для быстрого аварийного восстановления. Подробнее