Маскируем чувствительные данные: зачем, когда и как

Рубрика:

безопасность

Продолжаем разбирать практические аспекты информационной безопасности. В этом материале рассмотрим маскирование данных: зачем и когда может понадобиться, как работает и какими методами реализуется.

Зачем маскировать данные

Представьте, что для тестирования приложения разработчики и тестировщики подрядчика запрашивают базу данных. Если дать доступ к базе, есть риск столкнуться с утечкой данных и получить массу неприятностей от надзорных органов. Если нет — приложение не протестируют, и после релиза придется тратить массу времени и денег на отлавливание багов. Дилемму решает маскирование — метод защиты конфиденциальной информации через полную или частичную замену подлинных данных подставными.

Например, в нашей базе есть таблица клиентов. В ней ФИО, номер телефона, электронная почта, адрес клиента, история заказов и прочее. Компания определяет, какие данные являются критичными, и создает реплику исходной базы с заменой критичных данных на фиктивные: настоящие имена — на вымышленные, номер телефона — на случайный набор цифр, e-mail — на комбинацию символов с @. Такие данные пригодны для тестирования, аналитики и других задач, но в случае утечки не могут использоваться для продажи, шантажа или целевой атаки.

Когда нужно маскировать данные

Когда есть риск утечки конфиденциальных данных и чувствительной для бизнеса информации. Обычно это ситуации, когда к проекту привлекают внешних подрядчиков: разработчиков для улучшения ИТ-продуктов, маркетологов для проработки аналитических маркетинговых моделей, консалтеров на проекты цифровой трансформации и пр. Также маскирование применяется для данных, к которым имеют доступ внутренние пользователи с разным уровнем допуска.

Понять, нужна ли маскировка данных именно вам, поможет простой чек-лист:

Есть ли в базах данных компании чувствительная информация?
Проводится ли в компании обмен этой информацией между внутренними отделами и внешними подрядчиками?
Есть ли необходимость соответствовать требованиям PCI DSS, GDPR, 152-ФЗ, 395-ФЗ?

Если на вопросы вы отвечаете «да», значит, защита чувствительных данных нужна. И маскирование — самый подходящий метод.

Как работает маскирование данных

Выбор стратегии определяет цель. Для маскирования данных используют несколько стратегий:

генерация фиктивного ФИО или подстановка подменных номеров карт;
обнуление;
обобщение;
перемешивание исходных символов и пр.

Если компания передает данные для работы аналитикам важно не терять валидность и социально-демографическую структуру. Тогда для фамилий и имен генерируются правдоподобные альтернативы: дата рождения подменяется с сохранением возраста, адреса заменяются правдоподобными из КЛАДР (с сохранением региона), а в ИНН сохраняют только первые символы.

Кстати, необязательно обезличивать все данные. Для персональных данных обезличивание регулирует законодательство. Прочую чувствительную информацию компания может маскировать по собственному усмотрению. Если нужно, то обезличить примечания к банковской операции или замаскировать историю покупок.

Чтобы данные обезличить, необходимо понимать, что обезличивать. Для этого массивы информации маркируются или упорядочиваются. В зависимости от уровня ПО разметка выполняется вручную или автоматически. Классические решения для маскирования легко справляются с упорядоченными массивами заранее промаркированных данных, но в этом случае маркировать их придется либо другой программой, либо вручную.

Специальные автоматизированные платформы работают с неструктурированной информацией, самостоятельно идентифицируют ПДн и чувствительные данные. Ряд решений на стадии профилирования подключают к разметке искусственный интеллект. Это существенно снижает трудоемкость обезличивания, оптимизирует затраты на защиту и расходы на оплату труда специалистов.

В любом случае, независимо от целей и способов маскирования, обезличенные данные должны сохранить:

полноту (без потери информации при обезличивании),
структурированность (с сохранением связей, имевшихся до обезличивания),
релевантность (пригодность для получения ответов в нужной семантической форме),
семантическую целостность (с сохранением семантики при маскировании),
применимость (пригодность для решения задач по обработке информации),
анонимность (отсутствие возможности однозначной идентификации).

Методы маскирования

Технически методы маскирования делятся на динамические и статические. Динамический используется, чтобы закрыть сотрудникам доступ к данным, избыточным для их уровня допуска. Для этого специальное ПО запрашивает информацию в базе данных, обезличивает полученный ответ по специально отобранным критериям и отправляет пользователю уже замаскированный ответ. Программное обеспечение для этой цели обычно разворачивают на отдельном сервере или виртуальной машине. Так как информация обезличивается буквально на лету, важно выделить под задачу столько ресурсов, чтобы не снизить производительность системы даже на пиковых значениях запросов.

Для статического маскирования программное обеспечение также устанавливается на отдельном сервере или виртуальной машине, только данные маскируются не на лету, а при копировании копии базы. Программа реплицирует базу с полным сохранением структуры, заменяя актуальную информацию на фиктивную. Этот подход используют преимущественно при передаче баз данных разработчикам, тестировщикам или команде аналитиков на аутсорсе.

Несмотря на все преимущества, маскирование — не панацея от взломов и утечек. Это один из самых эффективных методов защиты конфиденциальной информации. Но лучше всего он работает в комбинации с другими инструментами информационной безопасности. Мы о них рассказывали и еще будем рассказывать. Не переключайтесь!