Quina és la tecnologia i la solució d'emmascarament de dades a Network Packet Broker?

1. El concepte d'emmascarament de dades

L'emmascarament de dades també es coneix com a emmascarament de dades. És un mètode tècnic per convertir, modificar o encobrir dades sensibles com ara el número de telèfon mòbil, el número de targeta bancària i altra informació quan s'han donat normes i polítiques d'emmascarament. Aquesta tècnica s'utilitza principalment per evitar que les dades sensibles s'utilitzin directament en entorns poc fiables.

Principi d'emmascarament de dades: l'emmascarament de dades ha de mantenir les característiques originals de les dades, les regles de negoci i la rellevància de les dades per garantir que el desenvolupament, les proves i l'anàlisi de dades posteriors no es vegin afectats per l'emmascarament. Assegureu-vos de la coherència i la validesa de les dades abans i després de l'emmascarament.

2. Classificació de l'emmascarament de dades

L'emmascarament de dades es pot dividir en emascarament de dades estàtic (SDM) i emascarament de dades dinàmic (DDM).

Emmascarament de dades estàtiques (SDM)L'emmascarament de dades estàtiques requereix l'establiment d'una nova base de dades d'entorn no productiu per aïllar-la de l'entorn de producció. Les dades sensibles s'extreuen de la base de dades de producció i després s'emmagatzemen a la base de dades no productiva. D'aquesta manera, les dades dessensibilitzades s'aïllen de l'entorn de producció, cosa que satisfà les necessitats empresarials i garanteix la seguretat de les dades de producció.

SDM

Emmascarament dinàmic de dades (DDM)Generalment s'utilitza en l'entorn de producció per dessensibilitzar dades sensibles en temps real. De vegades, es requereixen diferents nivells d'emmascarament per llegir les mateixes dades sensibles en diferents situacions. Per exemple, diferents rols i permisos poden implementar diferents esquemes d'emmascarament.

DDM

Aplicació d'emmascarament de productes de dades i informes de dades

Aquests escenaris inclouen principalment productes o cartells publicitaris de monitorització de dades internes, productes de dades de serveis externs i informes basats en l'anàlisi de dades, com ara informes empresarials i revisions de projectes.

emmascarament del producte d'informes de dades

3. Solució d'emmascarament de dades

Els esquemes comuns d'emmascarament de dades inclouen: invalidació, valor aleatori, substitució de dades, xifratge simètric, valor mitjà, desplaçament i arrodoniment, etc.

InvalidacióLa invalidació fa referència al xifratge, truncament o ocultació de dades sensibles. Aquest esquema normalment substitueix les dades reals per símbols especials (com ara *). L'operació és senzilla, però els usuaris no poden conèixer el format de les dades originals, cosa que pot afectar aplicacions de dades posteriors.

Valor aleatoriEl valor aleatori fa referència a la substitució aleatòria de dades sensibles (els números substitueixen els dígits, les lletres substitueixen les lletres i els caràcters substitueixen els caràcters). Aquest mètode d'emmascarament garantirà el format de les dades sensibles fins a cert punt i facilitarà l'aplicació posterior de dades. Pot ser necessari utilitzar diccionaris d'emmascarament per a algunes paraules significatives, com ara noms de persones i llocs.

Substitució de dadesLa substitució de dades és similar a l'emmascarament de valors nuls i aleatoris, excepte que en comptes d'utilitzar caràcters especials o valors aleatoris, les dades d'emmascarament es substitueixen per un valor específic.

Xifratge simètricEl xifratge simètric és un mètode especial d'emmascarament reversible. Xifra dades sensibles mitjançant claus i algoritmes de xifratge. El format de text xifrat és coherent amb les dades originals en regles lògiques.

MitjanaL'esquema de mitjanes s'utilitza sovint en escenaris estadístics. Per a dades numèriques, primer calculem la seva mitjana i després distribuïm aleatòriament els valors desensibilitzats al voltant de la mitjana, mantenint així constant la suma de les dades.

Desplaçament i arrodonimentAquest mètode canvia les dades digitals per desplaçament aleatori. L'arrodoniment de desplaçament garanteix l'autenticitat aproximada del rang alhora que manté la seguretat de les dades, que s'aproxima més a les dades reals que els esquemes anteriors, i té una gran importància en l'escenari de l'anàlisi de grans dades.

ML-NPB-5660-数据脱敏

El model recomanatML-NPB-5660" per a l'emmascarament de dades

4. Tècniques d'emmascarament de dades més utilitzades

(1). Tècniques estadístiques

Mostreig de dades i agregació de dades

- Mostreig de dades: L'anàlisi i l'avaluació del conjunt de dades original mitjançant la selecció d'un subconjunt representatiu del conjunt de dades és un mètode important per millorar l'eficàcia de les tècniques de desidentificació.

- Agregació de dades: com a conjunt de tècniques estadístiques (com ara suma, recompte, mitjana, màxim i mínim) aplicades als atributs de les microdades, el resultat és representatiu de tots els registres del conjunt de dades original.

(2). Criptografia

La criptografia és un mètode comú per dessensibilitzar o millorar l'eficàcia de la dessensibilització. Diferents tipus d'algoritmes de xifratge poden aconseguir diferents efectes de dessensibilització.

- Xifratge determinista: un xifratge simètric no aleatori. Normalment processa dades d'identificació i pot desxifrar i restaurar el text xifrat a l'ID original quan cal, però la clau ha d'estar protegida adequadament.

- Xifratge irreversible: la funció hash s'utilitza per processar dades, que normalment s'utilitzen per a dades d'identificació. No es poden desxifrar directament i s'ha de desar la relació de mapatge. A més, a causa de la característica de la funció hash, es poden produir col·lisions de dades.

- Xifratge homomòrfic: s'utilitza l'algoritme homomòrfic de text xifrat. La seva característica és que el resultat de l'operació de text xifrat és el mateix que el de l'operació de text clar després del desxifratge. Per tant, s'utilitza habitualment per processar camps numèrics, però no s'utilitza àmpliament per motius de rendiment.

(3). Tecnologia de sistemes

La tecnologia de supressió elimina o protegeix els elements de dades que no compleixen amb la protecció de la privadesa, però no els publica.

- Emmascarament: es refereix al mètode de dessensibilització més comú per emmascarar el valor d'un atribut, com ara el número de l'oponent, la targeta d'identificació marcada amb un asterisc o l'adreça truncada.

- Supressió local: es refereix al procés d'eliminar valors d'atributs específics (columnes), eliminant camps de dades no essencials;

- Supressió de registres: es refereix al procés d'eliminar registres específics (files), eliminant registres de dades no essencials.

(4). Tecnologia de pseudònims

El pseudomanning és una tècnica de desidentificació que utilitza un pseudònim per substituir un identificador directe (o un altre identificador sensible). Les tècniques de pseudònim creen identificadors únics per a cada subjecte d'informació individual, en lloc d'identificadors directes o sensibles.

- Pot generar valors aleatoris de manera independent que corresponguin a l'ID original, desar la taula de mapatge i controlar estrictament l'accés a la taula de mapatge.

- També podeu utilitzar el xifratge per produir pseudònims, però heu de conservar la clau de desxifratge correctament;

Aquesta tecnologia s'utilitza àmpliament en el cas d'un gran nombre d'usuaris de dades independents, com ara OpenID en l'escenari de plataforma oberta, on diferents desenvolupadors obtenen diferents OpenID per al mateix usuari.

(5). Tècniques de generalització

La tècnica de generalització fa referència a una tècnica de desidentificació que redueix la granularitat dels atributs seleccionats en un conjunt de dades i proporciona una descripció més general i abstracta de les dades. La tecnologia de generalització és fàcil d'implementar i pot protegir l'autenticitat de les dades a nivell de registre. S'utilitza habitualment en productes de dades o informes de dades.

- Arrodoniment: implica seleccionar una base d'arrodoniment per a l'atribut seleccionat, com ara forense ascendent o descendent, donant resultats 100, 500, 1K i 10K.

- Tècniques de codificació superior i inferior: substituir els valors per sobre (o per sota) del llindar per un llindar que representi el nivell superior (o inferior), donant com a resultat "per sobre de X" o "per sota de X".

(6). Tècniques d'aleatorització

Com a tècnica de desidentificació, la tecnologia d'aleatorització fa referència a la modificació del valor d'un atribut mitjançant l'aleatorització, de manera que el valor després de l'aleatorització sigui diferent del valor real original. Aquest procés redueix la capacitat d'un atacant per derivar un valor d'atribut a partir d'altres valors d'atribut en el mateix registre de dades, però afecta l'autenticitat de les dades resultants, cosa habitual amb les dades de prova de producció.


Data de publicació: 27 de setembre de 2022