Кейс. Как мы обеспечили непрерывность работы интернет-магазина

Как мы обеспечили непрерывность работы интернет-магазина

и проработали план аварийного восстановления на случай сбоев.

Задачи:
  • ИТ-инфраструктура
  • DR

Клиент

Крупный интернет-магазин с собственной торговой онлайн-площадкой.

Задачи:
  • ИТ-инфраструктура
  • DR

Задачи

Заказчик обратился с просьбой проработать варианты по аварийному восстановлению (Disaster Recovery) его сайта при сбое оборудования, по вине персонала и прочих проблемах. 

У компании была собственная On-Premise инфраструктура с резервными копиями на удаленной площадке. При аварии восстановление работоспособности систем осуществлялось вручную за счет перехода на резервную копию, что занимало около трех часов. Все это время сайт был недоступным, из-за чего клиенты интернет-магазина не могли оформить покупку. Компания несла финансовые и репутационные потери. 

Заказчик нуждался в решении, которое бы помогло: 

  • сделать работу сайта непрерывной, 
  • сократить время простоя сайта в случае сбоя, 
  • минимизировать участие человека в восстановлении систем.

Выбор решения

Для критичного к простою приложения мы предложили два сценария: 

  • Создать копии виртуальных машин (ВМ) заказчика в нашем облаке и настроить асинхронную репликацию данных. В случае аварии сайт будет доступен на резервной площадке. RTO (Recovery time objective, «целевое время восстановления») этого решения: 30 минут. 
  • Использовать катастрофоустойчивое облако на базе двух площадок, между которыми организована синхронная репликация. Вся информация при этом одновременно записывается на локальную и удаленную СХД. Если из строя выходит основная площадка, то ВМ продолжают работать на второй площадке. RTO этого решения: 2-2,5 минуты. 

В первом случае процесс восстановления должен запускаться вручную, поэтому есть риск, что процесс может затянуться из-за человеческого фактора. Но этот вариант дешевле второго. 

Заказчик просчитал возможные убытки бизнеса от более дешевого решения, сравнил решения по показателям RTO и остановил свой выбор на втором варианте — надежном катастрофоустойчивом облаке.

Как решали

Для перехода на выбранное решение требовалась миграция с On-Premise площадки клиента в защищенное облако нового поколения NGcloud. Клиент отказался от своей физической инфраструктуры, но оставил у себя площадку для хранения бэкапов.

Разработка сценария

Переход в облако мы предложили осуществить с помощью vCloud Availability. Этот инструмент гарантирует миграцию в облако с минимальным простоем. Наши инженеры настроили сетевую связность между облаком и инфраструктурой клиента. Создали тестовое задание. Провели тестовую миграцию и убедились в корректной работе сценария.

Миграция за 15 минут

Выбрали время суток с наименьшей нагрузкой на сайт и провели миграцию в облако с минимальным простоем.

DR-план

Наши архитекторы совместно с заказчиком разработали план для послеаварийного восстановления в случае сбоя работы сайта. Его основные пункты:

  • Описание инфраструктуры со ссылками на документацию.
  • Персонал, включая внешних подрядчиков, их роли с наглядной схемой взаимодействия.
  • Сценарий возможных аварий и последовательность действий при них. Отдельно описываются ситуации, не требующие активации DR-плана.
  • Процессы по внесению изменений в DR-план для поддержания актуальности. Вносить изменения в план нужно постоянно, потому что бизнес растет, меняется инфраструктура под нужды компании, могут меняться ответственные сотрудники и контакты.

Провели совместное тестирование плана и убедились в корректной работе всех служб.

Что получил клиент

Экономия и снижение потерь

Обеспечили гарантированную непрерывность работы онлайн-сервиса заказчика. Теперь потери бизнеса от аварий сводятся к минимуму.

Disaster Recovery Plan

Разработали надежный план действий всех необходимых служб для вероятных аварийных ситуаций. Сократили возможное время простоя в 50 раз по сравнению с исходными данными.

Новая IT-инфраструктура

Клиент получил отказоустойчивую облачную инфраструктуру на самом современном физическом оборудовании в территориально распределенных дата-центрах Tier III с профессиональной техподдержкой 24/7.