1. El concepte de Data Masking
L'emmascarament de dades també es coneix com a emmascarament de dades. És un mètode tècnic per convertir, modificar o cobrir dades sensibles, com ara el número de telèfon mòbil, el número de targeta bancària i altra informació quan hem donat normes i polítiques d'emmascarament. Aquesta tècnica s'utilitza principalment per evitar que les dades sensibles s'utilitzin directament en entorns poc fiables.
Principi d'emmascarament de dades: l'emmascarament de dades ha de mantenir les característiques de les dades originals, les regles comercials i la rellevància de les dades per garantir que el desenvolupament, les proves i l'anàlisi de dades posteriors no es veuran afectats per l'emmascarament. Assegureu-vos la coherència i la validesa de les dades abans i després de l'emmascarament.
2. Classificació de l'emmascarament de dades
L'emmascarament de dades es pot dividir en emmascarament de dades estàtiques (SDM) i emmascarament de dades dinàmiques (DDM).
Enmascarament de dades estàtiques (SDM): L'emmascarament de dades estàtiques requereix l'establiment d'una nova base de dades d'entorns no de producció per aïllar-se de l'entorn de producció. Les dades sensibles s'extreuen de la base de dades de producció i després s'emmagatzemen a la base de dades de no producció. D'aquesta manera, les dades desensibilitzades s'aïllen de l'entorn de producció, la qual cosa respon a les necessitats del negoci i garanteix la seguretat de les dades de producció.
Enmascarament de dades dinàmiques (DDM): s'utilitza generalment en l'entorn de producció per desensibilitzar dades sensibles en temps real. De vegades, es requereixen diferents nivells d'emmascarament per llegir les mateixes dades sensibles en diferents situacions. Per exemple, diferents rols i permisos poden implementar diferents esquemes d'emmascarament.
Informes de dades i aplicació d'emmascarament de productes de dades
Aquests escenaris inclouen principalment productes de monitorització de dades internes o cartelleres, productes de dades de serveis externs i informes basats en l'anàlisi de dades, com ara informes comercials i revisió de projectes.
3. Solució d'emmascarament de dades
Els esquemes comuns d'emmascarament de dades inclouen: invalidació, valor aleatori, substitució de dades, xifratge simètric, valor mitjà, compensació i arrodoniment, etc.
Invalidació: la invalidació fa referència al xifratge, truncament o ocultació de dades sensibles. Aquest esquema sol substituir les dades reals per símbols especials (com ara *). El funcionament és senzill, però els usuaris no poden conèixer el format de les dades originals, cosa que pot afectar les aplicacions de dades posteriors.
Valor aleatori: el valor aleatori fa referència a la substitució aleatòria de dades sensibles (els números substitueixen els dígits, les lletres substitueixen les lletres i els caràcters substitueixen els caràcters). Aquest mètode d'emmascarament garantirà fins a cert punt el format de les dades sensibles i facilitarà l'aplicació de dades posterior. Pot ser que calguin diccionaris d'emmascarament per a algunes paraules significatives, com ara noms de persones i llocs.
Substitució de dades: la substitució de dades és similar a l'emmascarament de valors nuls i aleatoris, excepte que en comptes d'utilitzar caràcters especials o valors aleatoris, les dades d'emmascarament es substitueixen per un valor específic.
Xifratge simètric: El xifratge simètric és un mètode especial d'emmascarament reversible. Xifra dades sensibles mitjançant claus i algorismes de xifratge. El format del text xifrat és coherent amb les dades originals en regles lògiques.
Mitjana: L'esquema mitjana s'utilitza sovint en escenaris estadístics. Per a dades numèriques, primer calculem la seva mitjana i després distribuïm aleatòriament els valors desensibilitzats al voltant de la mitjana, mantenint així la suma de les dades constant.
Offset i arrodoniment: Aquest mètode canvia les dades digitals per desplaçament aleatori. L'arrodoniment de l'offset garanteix l'autenticitat aproximada del rang mantenint la seguretat de les dades, més propera a les dades reals que els esquemes anteriors, i té una gran importància en l'escenari de l'anàlisi de big data.
El model recomanat"ML-NPB-5660" per a l'emmascarament de dades
4. Tècniques d'emmascarament de dades d'ús habitual
(1). Tècniques estadístiques
Mostreig de dades i agregació de dades
- Mostreig de dades: l'anàlisi i avaluació del conjunt de dades original mitjançant la selecció d'un subconjunt representatiu del conjunt de dades és un mètode important per millorar l'eficàcia de les tècniques de desidentificació.
- Agregació de dades: com a col·lecció de tècniques estadístiques (com ara la suma, el recompte, la mitjana, el màxim i el mínim) aplicades als atributs de les microdades, el resultat és representatiu de tots els registres del conjunt de dades original.
(2). Criptografia
La criptografia és un mètode comú per desensibilitzar o millorar l'eficàcia de la desensibilització. Diferents tipus d'algorismes de xifratge poden aconseguir diferents efectes de desensibilització.
- Xifratge determinista: un xifratge simètric no aleatori. Normalment processa les dades d'identificació i pot desxifrar i restaurar el text xifrat a l'identificador original quan cal, però la clau s'ha de protegir adequadament.
- Xifratge irreversible: la funció hash s'utilitza per processar dades, que normalment s'utilitza per a les dades d'identificació. No es pot desxifrar directament i s'ha de desar la relació de mapatge. A més, a causa de la característica de la funció hash, es pot produir una col·lisió de dades.
- Encriptació homomòrfica: s'utilitza l'algorisme homomòrfic del text xifrat. La seva característica és que el resultat de l'operació de text xifrat és el mateix que el de l'operació de text pla després del desxifrat. Per tant, s'utilitza habitualment per processar camps numèrics, però no s'utilitza àmpliament per raons de rendiment.
(3). Tecnologia del sistema
La tecnologia de supressió elimina o protegeix els elements de dades que no compleixen la protecció de la privadesa, però no els publica.
- Enmascarament: fa referència al mètode de desensibilització més comú per emmascarar el valor de l'atribut, com ara el número de l'oponent, el DNI està marcat amb un asterisc o l'adreça està truncada.
- Supressió local: es refereix al procés d'eliminació de valors d'atributs específics (columnes), eliminació de camps de dades no essencials;
- Supressió de registres: es refereix al procés d'eliminació de registres específics (files), eliminació de registres de dades no essencials.
(4). Pseudònim Tecnologia
Pseudomanning és una tècnica de desidentificació que utilitza un pseudònim per substituir un identificador directe (o un altre identificador sensible). Les tècniques de pseudònim creen identificadors únics per a cada subjecte d'informació individual, en lloc d'identificadors directes o sensibles.
- Pot generar valors aleatoris de manera independent per correspondre a l'ID original, desar la taula de mapes i controlar estrictament l'accés a la taula de mapes.
- També podeu utilitzar el xifratge per produir pseudònims, però heu de mantenir la clau de desxifrat correctament;
Aquesta tecnologia s'utilitza àmpliament en el cas d'un gran nombre d'usuaris de dades independents, com OpenID en l'escenari de plataforma oberta, on diferents desenvolupadors obtenen Openids diferents per al mateix usuari.
(5). Tècniques de generalització
La tècnica de generalització fa referència a una tècnica de desidentificació que redueix la granularitat dels atributs seleccionats en un conjunt de dades i proporciona una descripció més general i abstracta de les dades. La tecnologia de generalització és fàcil d'implementar i pot protegir l'autenticitat de les dades a nivell de registre. S'utilitza habitualment en productes de dades o informes de dades.
- Arrodonit: implica seleccionar una base d'arrodoniment per a l'atribut seleccionat, com ara forenses a l'alça o a la baixa, amb resultats de 100, 500, 1K i 10K
- Tècniques de codificació superior i inferior: substituïu els valors per sobre (o per sota) del llindar per un llindar que representi el nivell superior (o inferior), donant un resultat "per sobre de X" o "per sota de X".
(6). Tècniques d'aleatorització
Com a tipus de tècnica de desidentificació, la tecnologia d'aleatorització es refereix a modificar el valor d'un atribut mitjançant l'aleatorització, de manera que el valor després de l'aleatorització sigui diferent del valor real original. Aquest procés redueix la capacitat d'un atacant per derivar un valor d'atribut a partir d'altres valors d'atribut del mateix registre de dades, però afecta l'autenticitat de les dades resultants, que és habitual amb les dades de prova de producció.
Hora de publicació: 27-set-2022