Loading...

SLA для IaaS

  • Alt

Вместе с договором на оказание услуг, клиент IaaS подписывает SLA. Это тоже договор, но об уровне сервиса (Service Level Agreement). Документ определяет, на каких условиях провайдер предоставляет, а бизнес получает облачную IaaS-инфраструктуру. На страницах услуг Nubes эта информация есть в блоке «Финансовые гарантии качества». Правда в очень сжатом виде. В этой статье мы расширим тему и подробно разберем параметры качества облачных услуг.

Что такое SLA для облачных услуг

SLA для IaaS — соглашение между облачным провайдером и клиентом с подробным формализованным описанием качества облачной инфраструктуры. В соглашении перечисляются все критичные характеристики оказываемой услуги и обозначаются ключевые их параметры: доступность виртуальных ресурсов, производительность, инструменты и способы мониторинга параметров и скорость реакции на инциденты.

Доступность

Доступность облачного сервиса обозначается в процентах. Распространенные уровни SLA — 99%, 99,9%, 99,95% и 99,982%. Есть и 99.999%, но это редкая и очень дорогая история. Чтобы перевести абстрактные проценты в понятное время потенциально допустимого простоя, используем усредненные значение часов в месяце и году. Получаем, что при доступности 99% допустимый аптайм в месяц составляет 7ч 18м 17с, при 99,9% — 21м 55с, а при 99,982% — 7м 53с. В том же порядке за год, соответственно, 3д 15ч 39м 30с, 4ч 22м 58с и 1ч 34м 40с. 

 

Помимо часов и минут потенциально возможного аптайма, SLA оговаривает тип доступности. Для облачных сервисов корректно говорить о совокупной доступности, которая складывается из доступности дата-центра, облака и приложений. Здесь взаимоувязываются метрики всех подсистем: 

  • дата-центр отвечает за доступность оборудования, 
  • облако — за работу системных компонентов, 
  • информационные системы — за прикладные сервисы.  

 

При этом совокупная доступность не бывает выше доступности «узкого горлышка» —  самого слабого участка этой цепи. В нашем случае, благодаря оборудованию enterprise-уровня  и его размещению в геораспределенных ЦОД Tier III, облакам Nubes гарантирована совокупная доступность 99,982%.

Производительность инфраструктуры

При неправильно построенной облачной инфраструктуре виртуальные машины (ВМ) будут тормозить безо всякого аптайма. Вот почему помимо доступности, в SLA прописываются:

  • Метрика IOPS, включая допустимое уменьшение от эталонного значения.  Метрика обозначает количество операций ввода-вывода, которую СХД может обработать в единицу времени. У разных облачных сервисов эта метрика разная. Так, для разных облаков Nubes гарантируется производительность 1 ТБ SSD/4000 IOPS и 250 IOPS/500 GB SAS.
  • Скорость доступа к диску на виртуальной машине — это дополнительная метрика производительности СХД. Она показывает, насколько быстро СХД может передавать на диск ВМ большой объём данных. Оптимальной считается задержка передачи менее 50 мс.
  • Производительность vCPU, которая определяет скорость процессора или число запросов, обработанных за 1 секунду.
  • Средний показатель сетевых задержек в пределах сети передачи данных провайдера. Рыночным стандартом является задержка в 5 мс.
  • Потеря пакетов в процентом соотношении. Если упрощать, то потери пакетов относятся к ошибкам в системных настройках и в идеале должны отсутствовать. В реальности допустимой считается потеря пакетов в диапазоне от 0 до 1%. 

По каждому из параметров в SLA прописываются инструменты мониторинга. Например, среднее время доступа к SSD-диску виртуальной машины определяется системой мониторинга в составе vCenter Server, а параметр MIPS контролирует 7-Zip CPU — встроенный бенчмарк для тестирования скорости процессоров.

Скорость реакции провайдера

В SLA обязательно оговариваются типы инцидентов, параметры реакции поддержки на запросы и сбои. 

 

Запросы представляют собой заявки на штатные работы по улучшению или оптимизации сервиса. Для них изначально устанавливается более низкий, по сравнению со сбоями, приоритет. Для инцидентов, как нештатных ситуаций, скорость реакции априори выше, но и они ранжируются по приоритетам. Для каждого определяется время реакции. Время считается с момента авторизации заявки, когда система тикетов автоматически задокументировала событие.

 

Критически важным считается приоритет первого уровня, например, когда среднее время отклика SSD-диску ВМ превышает 100 мс, количество MIPS падает до уровня ниже 2200 или процент потери пакета переваливает за 1%. По таким инцидентам в SLA Nubes установлено время реакции меньше 10 минут. 

 

Возвращаясь к запросам — в Service Level Agreement по ним также указывается время обработки. При этом в правильном SLA к запросам применяется система ранжирования приоритетов. Запросы по текущим ресурсам клиента (изменить настройки сети, поднять виртуальную машину из резервной копии и пр.) обслуживаются в первую очередь. Добавить новую ВМ, расширить состав услуг — эта категория запросов относится к изменению ресурсов и им отводится приоритет второго уровня. Заявки на новые услуги и предоставление информации по клиентской инфраструктуре обрабатываются как запросы третьего приоритета. 

 

Остановка облачных сервисов не всегда связана с авариями и сбоями. Некоторые регламентные работы требуют кратковременной паузы и перезапуска систем. В SLA обязательно фиксируются условия и порядок уведомления клиентов о перерывах в сервисе, определяется максимально допустимое время приостановки. 

Финансовые гарантии

Вместе с числовыми параметрами качества и ключевыми характеристиками сервисов, SLA содержит штрафные санкции. В разделе санкций подробно описывается зона ответственности провайдера (инфраструктура дата-центра, каналы доступа в интернет, сетевое/серверное оборудование для ВМ, гипервизор) и конкретные компенсации за отклонение от параметров SLA. 

 

Размер и способ расчета компенсаций определяется провайдером. В одних случаях они зависят от количества инцидентов за единицу времени и продолжительности простоя. В других определяются как процент от стоимости услуги по каждой из нормируемых характеристик. В любом случае, в SLA подробно описывается механизм и условия наложения санкций, порядок расчета и выплаты компенсаций. У нас в Service Level Agreement этот раздел расписан предельно детально, но мы все равно просим клиентов внимательно вчитываться, задавать вопросы и уточнять оставшиеся неясными моменты. Чтобы решить все сложные и неоднозначные вопросы до подписания договора.