1. Концепцията за маскиране на данни
Маскирането на данни е известно още като маскиране на данни. Това е технически метод за конвертиране, промяна или покриване на чувствителни данни като номер на мобилен телефон, номер на банкова карта и друга информация, когато сме давали правила и правила за маскиране. Тази техника се използва предимно за предотвратяване на използването на чувствителни данни директно в ненадеждна среда.
Принцип на маскиране на данни: Маскирането на данни трябва да поддържа оригиналните характеристики на данните, бизнес правилата и релевантността на данните, за да се гарантира, че последващото разработване, тестване и анализ на данни няма да бъдат засегнати от маскиране. Осигурете последователност и валидност на данните преди и след маскиране.
2. Класификация на маскиране на данни
Маскирането на данни може да бъде разделено на статично маскиране на данни (SDM) и динамично маскиране на данни (DDM).
Статично маскиране на данни (SDM): Статичното маскиране на данни изисква създаването на нова база данни за непроизводствена среда за изолация от производствената среда. Чувствителните данни се извличат от производствената база данни и след това се съхраняват в непроизводствената база данни. По този начин десенсибилизираните данни са изолирани от производствената среда, която отговаря на нуждите на бизнеса и гарантира сигурността на производствените данни.
Динамично маскиране на данни (DDM): Обикновено се използва в производствената среда за десенсибилизиране на чувствителни данни в реално време. Понякога са необходими различни нива на маскиране, за да се четат едни и същи чувствителни данни в различни ситуации. Например, различни роли и разрешения могат да прилагат различни схеми за маскиране.
Отчитане на данни и приложението за маскиране на продукти
Такива сценарии включват главно вътрешни продукти за наблюдение на данни или билборд, продукти за външни услуги за услуги и отчети въз основа на анализ на данни, като бизнес отчети и преглед на проекти.
3. Решение за маскиране на данни
Общите схеми за маскиране на данни включват: инвалидиране, случайна стойност, подмяна на данни, симетрично криптиране, средна стойност, компенсиране и закръгляне и т.н.
Инвалидация: Инвалидирането се отнася до криптирането, отрязването или скриването на чувствителни данни. Тази схема обикновено замества реалните данни със специални символи (като *). Операцията е проста, но потребителите не могат да знаят формата на оригиналните данни, което може да повлияе на следващите приложения за данни.
Случайна стойност: Случайната стойност се отнася до случайната подмяна на чувствителни данни (числата заместват цифрите, буквите заместват буквите, а символите заместват символите). Този метод на маскиране ще гарантира до известна степен формата на чувствителните данни и ще улесни последващото приложение на данните. Може да са необходими маскиране на речниците за някои смислени думи, като имена на хора и места.
Подмяна на данни: Подмяната на данни е подобна на маскирането на нулеви и случайни стойности, с изключение на това, че вместо да се използват специални знаци или случайни стойности, маскиращите данни се заменят с конкретна стойност.
Симетрично криптиране: Симетричното криптиране е специален обратим метод за маскиране. Тя криптира чувствителни данни чрез клавиши за криптиране и алгоритми. Форматът на шифротекста е в съответствие с оригиналните данни в логически правила.
Средно: Средната схема често се използва в статистически сценарии. За числени данни първо изчисляваме тяхната средна стойност и след това на случаен принцип разпределяме десенсибилизираните стойности около средната стойност, като по този начин поддържаме сумата на данните постоянна.
Офсет и закръгляне: Този метод променя цифровите данни чрез произволно изместване. Закръглянето на офсет осигурява приблизителната автентичност на обхвата, като същевременно поддържа сигурността на данните, която е по -близка до реалните данни от предишните схеми, и има голямо значение в сценария на анализа на големите данни.
Моделът Препоръчайте "ML-NPB-5660"За маскирането на данните
4. Често използвани техники за маскиране на данни
(1). Статистически техники
Вземане на проби от данни и агрегация на данни
- Вземане на проби от данни: Анализът и оценката на оригиналния набор от данни чрез избор на представителен подмножество на набора от данни е важен метод за подобряване на ефективността на техниките за де-идентификация.
- Агрегиране на данни: Като събиране на статистически техники (като сумиране, броене, усредняване, максимално и минимум), приложени към атрибути в микроданните, резултатът е представителен за всички записи в оригиналния набор от данни.
(2). Криптография
Криптографията е често срещан метод за десенсибилизиране или повишаване на ефективността на десенсибилизацията. Различните видове алгоритми за криптиране могат да постигнат различни ефекти на десенсибилизация.
- детерминирано криптиране: неслучайно симетрично криптиране. Обикновено обработва идентификационни данни и може да декриптира и възстанови шифротекста до оригиналния идентификатор, когато е необходимо, но ключът трябва да бъде правилно защитен.
- Необратимо криптиране: Хеш функцията се използва за обработка на данни, които обикновено се използват за идентификационни данни. Тя не може да бъде директно декриптирана и връзката за картографиране трябва да бъде запазена. В допълнение, поради характеристиката на функцията на хеш, може да възникне сблъсък на данни.
- Хомоморфно криптиране: Използва се хомоморфният алгоритъм на шифротекста. Характеристиката му е, че резултатът от работата на шифротекста е същият като този на операцията на Speatext след декриптиране. Следователно, той обикновено се използва за обработка на числени полета, но не се използва широко от причини за изпълнение.
(3). Системна технология
Технологията за потискане изтрива или предпазва елементи от данни, които не отговарят на защитата на поверителността, но не ги публикува.
- Маскиране: Той се отнася до най -често срещания метод на десенсибилизация за маскиране на стойността на атрибута, като например числото на противника, ID картата е маркирана със звездичка или адресът е отрязан.
- Локално потискане: се отнася до процеса на изтриване на специфични стойности на атрибутите (колони), премахване на несъществени полета за данни;
- Записване на потискане: се отнася до процеса на изтриване на конкретни записи (редове), изтриване на несъществени записи на данни.
(4). Псевдонимна технология
Pseudomanning е техника за де-идентификация, която използва псевдоним, за да замени директен идентификатор (или друг чувствителен идентификатор). Псевдонимните техники създават уникални идентификатори за всеки отделен информационен обект, вместо директни или чувствителни идентификатори.
- Той може да генерира случайни стойности независимо, за да съответства на оригиналния ID, да запази таблицата за картографиране и стриктно да контролира достъпа до таблицата за картографиране.
- Можете също да използвате криптиране за производство на псевдоними, но трябва да поддържате правилно декриптирането на ключа;
Тази технология се използва широко в случай на голям брой независими потребители на данни, като OpenID в сценария на отворената платформа, където различни разработчици получават различни OpenIDS за един и същ потребител.
(5). Техники за обобщение
Техниката на обобщаване се отнася до техника за де-идентификация, която намалява подробността на избраните атрибути в набор от данни и предоставя по-общо и абстрактно описание на данните. Технологията за обобщаване е лесна за изпълнение и може да защити автентичността на данните на ниво записи. Обикновено се използва в продукти за данни или отчети за данни.
- закръгляне: включва избор на база за закръгляне за избрания атрибут, като възходяща или надолу по криминалистика, даване на резултати 100, 500, 1K и 10K
- Техники за кодиране отгоре и долно: Сменете стойностите над (или под) прага с праг, представляващ нивото на горното (или долната), като давате резултат от „над x“ или „под x“
(6). Техники за рандомизация
Като вид техника за девизиране, технологията за рандомизация се отнася до промяна на стойността на атрибута чрез рандомизация, така че стойността след рандомизацията да е различна от първоначалната реална стойност. Този процес намалява способността на нападателя да извлече стойност на атрибут от други стойности на атрибутите в същия запис на данни, но влияе на автентичността на получените данни, което е обща при данни за производствен тест.
Време за публикация: септември-27-2022