La desduplicació de dades és una tecnologia d'emmagatzematge popular i popular que optimitza la capacitat d'emmagatzematge. Elimina les dades redundants eliminant les dades duplicades del conjunt de dades, deixant només una còpia. Com es mostra a la figura següent. Aquesta tecnologia pot reduir considerablement la necessitat d'espai d'emmagatzematge físic per satisfer la creixent demanda d'emmagatzematge de dades. La tecnologia de desduplicació pot aportar molts beneficis pràctics, principalment els aspectes següents:
(1) | Complir els requisits de ROI (retorn de la inversió)/TCO (cost total de propietat); |
(2) | El ràpid creixement de les dades es pot controlar eficaçment; |
(3) | Augmentar l'espai d'emmagatzematge efectiu i millorar l'eficiència de l'emmagatzematge; |
(4) | Estalvieu el cost total d'emmagatzematge i el cost de gestió; |
(5) | Estalvieu l'amplada de banda de la xarxa de transmissió de dades; |
(6) | Estalvieu costos d'operació i manteniment com ara espai, font d'alimentació i refrigeració. |
La tecnologia de deduplicació s'utilitza àmpliament en sistemes de còpia de seguretat i arxivament de dades, ja que hi ha moltes dades duplicades després de múltiples còpies de seguretat de dades, cosa que és molt adequada per a aquesta tecnologia. De fet, la tecnologia de deduplicació es pot utilitzar en moltes situacions, incloent-hi dades en línia, dades near-line i sistemes d'emmagatzematge de dades fora de línia. Es pot implementar en sistemes de fitxers, gestors de volums, NAS i sans. La deduplicació també es pot utilitzar per a la recuperació de desastres de dades, la transmissió i la sincronització de dades, ja que es pot utilitzar una tecnologia de compressió de dades per a l'empaquetament de dades. La tecnologia de deduplicació pot ajudar moltes aplicacions a reduir l'emmagatzematge de dades, estalviar ample de banda de xarxa, millorar l'eficiència de l'emmagatzematge, reduir la finestra de còpia de seguretat i estalviar costos.
La deduplicació té dues dimensions principals: les ràtios de deduplicació i el rendiment. El rendiment de la deduplicació depèn de la tecnologia d'implementació específica, mentre que la taxa de deduplicació està determinada per les característiques de les dades en si i els patrons de l'aplicació, tal com es mostra a la taula següent. Els proveïdors d'emmagatzematge actualment informen de taxes de deduplicació que oscil·len entre 20:1 i 500:1.
Alta taxa de deduplicació | Baixa taxa de deduplicació |
Dades creades per l'usuari | Dades del món natural |
Baixa taxa de canvi de dades | Alta taxa de canvi de dades |
Dades de referència, dades inactives | Dades actives |
Aplicació de baixa taxa de canvi de dades | Aplicació d'alta taxa de canvi de dades |
Còpia de seguretat completa de dades | Còpia de seguretat incremental de dades |
Emmagatzematge de dades a llarg termini | Emmagatzematge de dades a curt termini |
Àmplia gamma d'aplicacions de dades | Petita gamma d'aplicacions de dades |
Processament continu de dades empresarials | Processament empresarial de dades generals |
Segmentació de dades petites | Segmentació de grans dades |
Allargar la segmentació de dades | Segmentació de dades de longitud fixa |
Contingut de dades percebut | Contingut de dades desconegut |
Deduplicació de dades de temps | Deduplicació de dades espacials |
Punts d'implementació de deduplicació
Cal tenir en compte diversos factors a l'hora de desenvolupar o aplicar la tecnologia Dedupe, ja que aquests factors afecten directament el seu rendiment i la seva eficàcia.
(1) | Què | Quines dades estan desponderades? |
(2) | Quan | Quan s'eliminarà el pes? |
(3) | On | On és l'eliminació de pes? |
(4) | Com | Com reduir el pes? |
Tecnologia de clau de deduplicació
El procés de deduplicació d'un sistema d'emmagatzematge en general és el següent: en primer lloc, el fitxer de dades es divideix en un conjunt de dades. Per a cada bloc de dades es calcula l'empremta digital i, a continuació, basant-se en les paraules clau de cerca hash de l'empremta digital, la coincidència indica les dades dels blocs de dades duplicats, només s'emmagatzema el número d'índex del bloc de dades; en cas contrari, significa que el bloc de dades és l'única peça d'un nou bloc de dades, que emmagatzema i crea metainformació rellevant. Així, un fitxer físic del sistema d'emmagatzematge correspon a una representació lògica d'un conjunt de metadades FP. Quan es llegeix el fitxer, primer es llegeix el fitxer lògic i, a continuació, segons la seqüència FP, es treu el bloc de dades corresponent del sistema d'emmagatzematge i es restaura la còpia del fitxer físic. A partir del procés anterior es pot veure que les tecnologies clau de la deduplicació inclouen principalment la segmentació de blocs de dades de fitxers, el càlcul de l'empremta digital del bloc de dades i la recuperació de blocs de dades.
(1) Segmentació de blocs de dades de fitxers
(2) Càlcul de l'empremta digital del bloc de dades
(3) Recuperació de blocs de dades
Per trobar aquests models recomanats per iniciar la deduplicació de paquets de xarxa:
Mylinking™ Network Packet Broker (NPB) ML-NPB-640048*10GE SFP+ més 4*40GE/100GE QSFP28, màxim 880 Gbps
Mylinking™ Network Packet Broker (NPB) ML-NPB-56606*40GE/100GE QSFP28 més 48*10GE/25GE SFP28, màxim 1,8 Tbps
Mylinking™ Network Packet Broker (NPB) ML-NPB-506048 * 10GE SFP+ més 2 * 40GE QSFP, màxim 560 Gbps
Mylinking™ Network Packet Broker (NPB) ML-NPB-486048 * 10GE SFP +, màxim 480 Gbps, funció Plus
Mylinking™ Network Packet Broker (NPB) ML-NPB-481048 * 10GE SFP+, màxim 480 Gbps
Mylinking™ Network Packet Broker (NPB) ML-NPB-2410P24 * 10GE SFP+, màxim 240 Gbps, funció DPI
Mylinking™ Network Packet Broker (NPB) ML-NPB-6400
48*10GE SFP+ més 4*40GE/100GE QSFP28, màxim 880 Gbps
Data de publicació: 18 d'octubre de 2022