1. Концепцията за маскиране на данни
Маскирането на данни е известно още като маскиране на данни. Това е технически метод за преобразуване, модифициране или покриване на чувствителни данни, като например номер на мобилен телефон, номер на банкова карта и друга информация, когато сме предоставили правила и политики за маскиране. Тази техника се използва предимно за предотвратяване на директното използване на чувствителни данни в ненадеждни среди.
Принцип на маскиране на данни: Маскирането на данни трябва да запази оригиналните характеристики на данните, бизнес правилата и релевантността на данните, за да се гарантира, че последващото разработване, тестване и анализ на данните няма да бъдат засегнати от маскирането. Осигурете съгласуваност и валидност на данните преди и след маскирането.
2. Класификация на маскирането на данни
Маскирането на данни може да се раздели на статично маскиране на данни (SDM) и динамично маскиране на данни (DDM).
Статично маскиране на данни (SDM)Маскирането на статичните данни изисква създаването на нова база данни в непроизводствена среда за изолиране от производствената среда. Чувствителните данни се извличат от производствената база данни и след това се съхраняват в непроизводствената база данни. По този начин десенсибилизираните данни се изолират от производствената среда, което отговаря на бизнес нуждите и гарантира сигурността на производствените данни.
Динамично маскиране на данни (DDM)Обикновено се използва в производствена среда за намаляване на чувствителността на чувствителни данни в реално време. Понякога са необходими различни нива на маскиране, за да се прочетат едни и същи чувствителни данни в различни ситуации. Например, различните роли и разрешения могат да прилагат различни схеми за маскиране.
Приложение за маскиране на данни и продукти от данни
Такива сценарии включват главно продукти за вътрешен мониторинг на данни или билбордове, продукти за данни за външни услуги и отчети, базирани на анализ на данни, като например бизнес отчети и преглед на проекти.
3. Решение за маскиране на данни
Често срещаните схеми за маскиране на данни включват: анулиране, случайна стойност, заместване на данни, симетрично криптиране, осредняване, отместване и закръгляване и др.
АнулиранеАнулирането се отнася до криптиране, отрязване или скриване на чувствителни данни. Тази схема обикновено замества реалните данни със специални символи (като *). Операцията е проста, но потребителите не могат да знаят формата на оригиналните данни, което може да повлияе на последващите приложения за данни.
Случайна стойностСлучайната стойност се отнася до случайното заместване на чувствителни данни (числата заместват цифри, буквите заместват букви, а символите заместват символи). Този метод на маскиране ще осигури до известна степен форматирането на чувствителните данни и ще улесни последващото им приложение. За някои смислени думи, като например имена на хора и места, може да са необходими маскиращи речници.
Замяна на данниЗаместването на данни е подобно на маскирането на нулеви и случайни стойности, с изключение на това, че вместо да се използват специални символи или случайни стойности, маскиращите данни се заменят със специфична стойност.
Симетрично криптиранеСиметричното криптиране е специален метод за обратимо маскиране. То криптира чувствителни данни чрез ключове за криптиране и алгоритми. Форматът на шифротекста е съвместим с оригиналните данни в логически правила.
СредноСхемата за осредняване често се използва в статистически сценарии. За числови данни първо изчисляваме средната им стойност и след това разпределяме на случаен принцип десенсибилизираните стойности около средната стойност, като по този начин поддържаме сумата на данните постоянна.
Отместване и закръгляванеТози метод променя цифровите данни чрез произволно изместване. Закръгляването с отместване осигурява приблизителната автентичност на диапазона, като същевременно запазва сигурността на данните, което е по-близо до реалните данни, отколкото при предишните схеми, и има голямо значение в сценария на анализ на големи данни.
Препоръчителният моделML-NPB-5660„за маскирането на данни“
4. Често използвани техники за маскиране на данни
(1). Статистически техники
Извадка от данни и агрегиране на данни
- Вземане на проби от данни: Анализът и оценката на оригиналния набор от данни чрез избиране на представително подмножество от набора от данни е важен метод за подобряване на ефективността на техниките за деидентификация.
- Агрегиране на данни: Като съвкупност от статистически техники (като сумиране, броене, осредняване, максимум и минимум), приложени към атрибути в микроданни, резултатът е представителен за всички записи в оригиналния набор от данни.
(2). Криптография
Криптографията е често срещан метод за намаляване или повишаване на ефективността на десенсибилизацията. Различните видове алгоритми за криптиране могат да постигнат различни ефекти на десенсибилизация.
- Детерминистично криптиране: Неслучайно симетрично криптиране. Обикновено обработва идентификационни данни и може да декриптира и възстанови шифрования текст до оригиналния идентификатор, когато е необходимо, но ключът трябва да бъде правилно защитен.
- Необратимо криптиране: Хеш функцията се използва за обработка на данни, които обикновено се използват за идентификационни данни. Тя не може да бъде директно декриптирана и връзката на съпоставяне трябва да бъде запазена. Освен това, поради характеристиката на хеш функцията, може да възникне колизия на данните.
- Хомоморфно криптиране: Използва се хомоморфен алгоритъм за шифрован текст. Характеристиката му е, че резултатът от операцията с шифрован текст е същият като този от операцията с открит текст след декриптиране. Поради това, той често се използва за обработка на числови полета, но не е широко разпространен поради причини, свързани с производителността.
(3). Системна технология
Технологията за потискане изтрива или защитава елементи от данни, които не отговарят на изискванията за защита на поверителността, но не ги публикува.
- Маскиране: това е най-често срещаният метод за десенсибилизация, който маскира стойността на атрибута, като например номерът на опонента, личната карта е маркирана със звездичка или адресът е съкратен.
- Локално потискане: отнася се до процеса на изтриване на специфични стойности на атрибути (колони), премахване на несъществени полета с данни;
- Потискане на записи: отнася се до процеса на изтриване на конкретни записи (редове), изтриване на несъществени записи с данни.
(4). Технология на псевдонимите
Псевдонимирането е техника за деидентификация, която използва псевдоним, за да замени директен идентификатор (или друг чувствителен идентификатор). Техниките с псевдоними създават уникални идентификатори за всеки отделен субект на информация, вместо директни или чувствителни идентификатори.
- Може да генерира произволни стойности независимо, за да съответстват на оригиналния идентификатор, да запазва таблицата за картографиране и стриктно да контролира достъпа до таблицата за картографиране.
- Можете също да използвате криптиране, за да създадете псевдоними, но е необходимо правилно да съхранявате ключа за декриптиране;
Тази технология се използва широко в случай на голям брой независими потребители на данни, като например OpenID в сценария с отворена платформа, където различните разработчици получават различни OpenID за един и същ потребител.
(5). Техники за обобщаване
Техниката за генерализация се отнася до техника за деидентификация, която намалява гранулираността на избрани атрибути в набор от данни и предоставя по-общо и абстрактно описание на данните. Технологията за генерализация е лесна за внедряване и може да защити автентичността на данните на ниво запис. Тя се използва често в продукти с данни или отчети с данни.
- Закръгляване: включва избор на база за закръгляване за избрания атрибут, например възходяща или низходяща криминалистика, което води до резултати 100, 500, 1K и 10K
- Техники за кодиране отгоре и отдолу: Заменете стойностите над (или под) прага с праг, представляващ горното (или долното) ниво, което води до резултат „над X“ или „под X“.
(6). Техники за рандомизация
Като вид техника за деидентификация, технологията за рандомизация се отнася до модифициране на стойността на атрибут чрез рандомизация, така че стойността след рандомизацията да е различна от оригиналната реална стойност. Този процес намалява способността на атакуващия да извлече стойност на атрибут от други стойности на атрибути в същия запис на данни, но влияе върху автентичността на получените данни, което е често срещано при данните от производствените тестове.
Време на публикуване: 27 септември 2022 г.