Какво представлява технологията и решението за маскиране на данни в брокера на мрежови пакети?

1. Концепцията за маскиране на данни

Маскирането на данни е известно още като маскиране на данни. Това е технически метод за конвертиране, модифициране или покриване на чувствителни данни като номер на мобилен телефон, номер на банкова карта и друга информация, когато сме дали правила и политики за маскиране. Тази техника се използва предимно за предотвратяване на директно използване на чувствителни данни в ненадеждни среди.

Принцип на маскиране на данни: Маскирането на данни трябва да поддържа оригиналните характеристики на данните, бизнес правилата и уместността на данните, за да се гарантира, че последващото разработване, тестване и анализ на данни няма да бъдат засегнати от маскирането. Осигурете последователност и валидност на данните преди и след маскирането.

2. Класификация за маскиране на данни

Маскирането на данни може да бъде разделено на маскиране на статични данни (SDM) и маскиране на динамични данни (DDM).

Статично маскиране на данни (SDM): Статичното маскиране на данни изисква създаването на нова база данни за непроизводствена среда за изолиране от производствената среда. Чувствителните данни се извличат от производствената база данни и след това се съхраняват в непроизводствената база данни. По този начин десенсибилизираните данни са изолирани от производствената среда, което отговаря на бизнес нуждите и гарантира сигурността на производствените данни.

SDM

Динамично маскиране на данни (DDM): Обикновено се използва в производствената среда за десенсибилизиране на чувствителни данни в реално време. Понякога са необходими различни нива на маскиране, за да се прочетат едни и същи чувствителни данни в различни ситуации. Например различни роли и разрешения могат да прилагат различни схеми за маскиране.

DDM

Приложение за отчитане на данни и маскиране на продукти с данни

Такива сценарии включват главно вътрешни продукти за наблюдение на данни или билбордове, външни продукти за данни за услуги и отчети, базирани на анализ на данни, като бизнес отчети и преглед на проекти.

маскиране на продукта за отчитане на данни

3. Решение за маскиране на данни

Често срещаните схеми за маскиране на данни включват: обезсилване, произволна стойност, заместване на данни, симетрично криптиране, средна стойност, отместване и закръгляване и др.

Обезсилване: Невалидността се отнася до криптирането, съкращаването или скриването на чувствителни данни. Тази схема обикновено замества реалните данни със специални символи (като *). Операцията е проста, но потребителите не могат да знаят формата на оригиналните данни, което може да засегне следващите приложения за данни.

Случайна стойност: Произволната стойност се отнася до произволната замяна на чувствителни данни (числа заместват цифри, букви заместват букви и знаци заместват знаци). Този метод на маскиране ще гарантира формата на чувствителните данни до известна степен и ще улесни последващото прилагане на данни. Може да са необходими маскиращи речници за някои смислени думи, като имена на хора и места.

Замяна на данни: Замяната на данни е подобна на маскирането на нулеви и произволни стойности, с изключение на това, че вместо да се използват специални знаци или произволни стойности, маскиращите данни се заменят с конкретна стойност.

Симетрично криптиране: Симетричното криптиране е специален метод за обратимо маскиране. Той криптира чувствителни данни чрез криптиращи ключове и алгоритми. Форматът на шифрования текст е в съответствие с оригиналните данни в логическите правила.

Средно: Средната схема често се използва в статистически сценарии. За цифровите данни първо изчисляваме тяхната средна стойност и след това произволно разпределяме десенсибилизираните стойности около средната стойност, като по този начин запазваме сумата от данните постоянна.

Отместване и закръгляване: Този метод променя цифровите данни чрез произволно изместване. Изместеното закръгляване гарантира приблизителната автентичност на диапазона, като същевременно поддържа сигурността на данните, която е по-близка до реалните данни, отколкото предишните схеми, и има голямо значение в сценария на анализ на големи данни.

ML-NPB-5660-数据脱敏

Препоръчваният модел "ML-NPB-5660" за маскирането на данни

4. Често използвани техники за маскиране на данни

(1). Статистически техники

Извадка от данни и агрегиране на данни

- Извадка от данни: Анализът и оценката на оригиналния набор от данни чрез избиране на представителна подгрупа от набора от данни е важен метод за подобряване на ефективността на техниките за деидентификация.

- Агрегиране на данни: Като набор от статистически техники (като сумиране, преброяване, осредняване, максимум и минимум), приложени към атрибути в микроданни, резултатът е представителен за всички записи в оригиналния набор от данни.

(2). Криптография

Криптографията е често срещан метод за десенсибилизиране или подобряване на ефективността на десенсибилизирането. Различните видове алгоритми за криптиране могат да постигнат различни ефекти на десенсибилизация.

- Детерминистично криптиране: неслучайно симетрично криптиране. Обикновено обработва идентификационни данни и може да дешифрира и възстанови шифрования текст до оригиналния идентификатор, когато е необходимо, но ключът трябва да бъде правилно защитен.

- Необратимо криптиране: Хеш функцията се използва за обработка на данни, която обикновено се използва за ID данни. Не може да се декриптира директно и връзката на картографиране трябва да бъде запазена. В допълнение, поради функцията на хеш функцията, може да възникне сблъсък на данни.

- Хомоморфно криптиране: Използва се алгоритъмът за хомоморфен шифрован текст. Неговата характеристика е, че резултатът от операцията с шифрован текст е същият като този от операцията с отворен текст след декриптиране. Поради това обикновено се използва за обработка на числови полета, но не се използва широко от съображения за производителност.

(3). Системна технология

Технологията за потискане изтрива или защитава елементи от данни, които не отговарят на защитата на поверителността, но не ги публикува.

- Маскиране: отнася се до най-често срещания метод за десенсибилизация за маскиране на стойността на атрибута, като например номера на противника, личната карта е маркирана със звездичка или адресът е съкратен.

- Локално потискане: отнася се до процеса на изтриване на специфични стойности на атрибут (колони), премахване на несъществени полета с данни;

- Подтискане на записи: отнася се до процеса на изтриване на конкретни записи (редове), изтриване на несъществени записи на данни.

(4). Технология на псевдонима

Псевдоманирането е техника за деидентификация, която използва псевдоним, за да замени директен идентификатор (или друг чувствителен идентификатор). Техниките за псевдоним създават уникални идентификатори за всеки отделен субект на информация, вместо директни или чувствителни идентификатори.

- Може да генерира произволни стойности независимо, за да съответства на оригиналния идентификатор, да запази таблицата за картографиране и стриктно да контролира достъпа до таблицата за картографиране.

- Можете също така да използвате криптиране, за да създадете псевдоними, но трябва да запазите правилно ключа за дешифриране;

Тази технология се използва широко в случай на голям брой независими потребители на данни, като OpenID в сценария на отворена платформа, където различни разработчици получават различни OpenID за един и същ потребител.

(5). Техники за обобщение

Техниката за генерализиране се отнася до техника за деидентификация, която намалява детайлността на избраните атрибути в набор от данни и предоставя по-общо и абстрактно описание на данните. Технологията за генерализиране е лесна за внедряване и може да защити автентичността на данните на ниво запис. Обикновено се използва в продукти с данни или отчети с данни.

- Закръгляване: включва избор на база за закръгляване за избрания атрибут, като криминалистика нагоре или надолу, което води до резултати 100, 500, 1K и 10K

- Техники за кодиране отгоре и отдолу: Заменете стойностите над (или под) прага с праг, представляващ най-горното (или най-долното) ниво, давайки резултат „над X“ или „под X“

(6). Техники за рандомизация

Като вид техника за деидентификация, технологията за рандомизиране се отнася до модифициране на стойността на атрибут чрез рандомизиране, така че стойността след рандомизиране да е различна от оригиналната реална стойност. Този процес намалява способността на атакуващия да извлече стойност на атрибут от други стойности на атрибут в същия запис на данни, но засяга автентичността на получените данни, което е обичайно за данните от производствения тест.


Време на публикуване: 27 септември 2022 г