Deduplicare l'archiviazione DPM

 

Pubblicato: marzo 2016

Questo articolo descrive come ridurre l'utilizzo dell'archiviazione di DPM abilitando la funzionalità di deduplicazione nell'archiviazione di DPM. In questo scenario, DPM viene eseguito in una macchina virtuale Hyper-V e archivia i dati di backup su VHD in cartelle condivise in un File server Windows con la funzionalità di deduplicazione dati abilitata.

Panoramica

Negli ambienti attuali gli amministratori IT devono affrontare la sfida enorme imposta dalla crescita dei dati, come illustrato nella proiezione IDC relativa ai dati a livello mondiale fino al 2020 riportata di seguito. L’incremento nella crescita dei dati aziendali comporta un aumento delle esigenze di archiviazione di backup.

DPM and deduplication

La crescita dei dati aumenta i costi relativi a manutenzione e hardware. Come illustrato di seguito, il 62% degli amministratori IT è preoccupato riguardo all'aumento dei costi per hardware/software e per la relativa manutenzione. Per il sondaggio completo vedere l’articolo sulle Conseguenze dell’esplosione dei dati per gli utenti sul blog di Informatica.

DPM Deduplication

Gli amministratori IT eseguono il backup dei dati di produzione per soddisfare esigenze di ripristino operativo e i requisiti di conformità dell'organizzazione. Per sua stessa natura il backup è un'operazione con utilizzo estremamente intensivo di risorse di archiviazione, quindi ridurre il consumo di archiviazione di backup è una delle principali priorità per gli amministratori IT.

La deduplicazione può soddisfare le esigenze di riduzione del consumo di risorse di archiviazione. Sebbene la quantità di ridondanza in uno specifico set di dati dipenda dal carico di lavoro e dai tipi di dati utilizzati, è tipico che l’utilizzo della deduplicazione offra considerevoli risparmi per i dati di backup. Un'ulteriore ridondanza e, conseguentemente ulteriori risparmi derivanti dalla deduplicazione, possono verificarsi quando dati di backup provenienti da carichi di lavoro simili che utilizzano set di dati simili, vengono elaborati insieme. DPM utilizza la deduplicazione per fornire tali vantaggi.

Panoramica di DPM

System Center Data Protection Manager è una soluzione di backup aziendale che offre:

  • Funzionalità di backup e ripristino sensibili all’applicazione: DPM protegge client, server, macchine virtuali, dati su file server e carichi di lavoro dell'applicazione. Offre opzioni di backup flessibili, inclusa la capacità di eseguire il backup di alcuni carichi di lavoro con una frequenza fino a 15 minuti. DPM offre una vasta gamma di funzionalità di ripristino. I clienti possono, ad esempio, sostituire un database SQL Server di produzione corrente con una copia precedente, ripristinare i database in un'altra posizione per l'analisi o ripristinarli come file per fornire una copia all'ufficio legale. DPM consente agli amministratori IT di scegliere il tipo di ripristino di cui necessitano. DPM supporta il recupero dati gestito dall'utente. Un amministratore di SQL, amministratore di file system o un utente client è in grado di recuperare tutti i propri dati direttamente senza richiedere l'assistenza dell’amministratore.

    In un ambiente dinamico vengono continuamente creati nuovi dati nei server di produzione. DPM assicura tranquillità agli amministratori di backup fornendo una protezione a livello di istanza che rileva automaticamente e configura i nuovi dati creati dai carichi di lavoro. In questo modo si elimina la necessità per gli amministratori di backup di trovare manualmente le nuove istanze di dati e di aggiungerle alla configurazione del backup.

  • Scalabilità aziendale e gestione centralizzata: un singolo server DPM è in grado di proteggere 80 TB di dati di produzione o 100 server di produzione. La Console centrale DPM può essere distribuita per gestire fino a 100 server DPM da una posizione centralizzata. Utilizzare il reporting centralizzato di DPM per la generazione semplice di report personalizzati per tutti i server DPM.

  • Protezione efficiente del cloud privato Che il data center su cloud privato sia configurato per eseguire macchine virtuali Hyper-V su server autonomi oppure su server Windows con connessioni remote a condivisioni file SMB su File server di Windows, DPM può eseguire il backup di macchine virtuali in modo efficiente utilizzando la tecnologia unica di backup di macchine virtuali offerta da DPM.

    Ad esempio, DPM rileva la migrazione di una macchina virtuale e continua a proteggere automaticamente tale macchina virtuale, senza alcun coinvolgimento attivo dall'amministratore di backup. Se per la macchina virtuale viene eseguita la migrazione da host a host, lo stesso server DPM continuerà a eseguire il backup senza alcuna modifica di DPM o di una procedura manuale.

  • Backup integrato nel cloud DPM è sufficientemente flessibile per proteggere i carichi di lavoro distribuiti in un cloud privato di Hyper-V, nel cloud pubblico di Azure o in un cloud di un provider di servizi di hosting. Le società che eseguono carichi di lavoro Microsoft in Azure possono utilizzare DPM in esecuzione su Azure per proteggere tali carichi di lavoro. DPM supporta il backup fuori sede su Azure tramite il servizio di Backup di Azure. Il servizio di backup di Azure è integrato nei flussi di lavoro di protezione e ripristino di DPM, semplificando la gestione delle impostazioni di backup fuori sede e conservando i dati per svariati anni. Il backup di Azure offre un'alternativa al backup su nastro caratterizzato da onerose attività di manutenzione dei nastri e di spedizione fuori sede. Gli amministratori di backup sono ora completamente liberi dai problemi di manutenzione dei nastri.

Panoramica della deduplicazione dati

La deduplicazione dati (dedup) è stata introdotta in Windows Server 2012 come sostituzione di prossima generazione per la funzionalità Single Instance Storage (SIS) in Windows Storage Server 2008. In tale funzionalità viene utilizzato un algoritmo avanzato di suddivisione in blocchi di dimensioni variabili per fornire il massimo risparmio di deduplicazione per volume. Viene utilizzato un approccio di post-elaborazione per mantenere la semantica di tutti i file system e per garantire un impatto trascurabile sulle prestazioni del percorso dati primario. Per ulteriori informazioni, vedere Panoramica della deduplicazione dati.

La deduplicazione dati è progettata per essere installata su volumi di dati primari senza richiedere l’aggiunta di ulteriore hardware dedicato, in modo da non avere alcun impatto sul carico di lavoro principale nel server. Le impostazioni predefinite sono non invasive, poiché si attende che i dati abbiano un’età di cinque giorni prima di elaborare un file specifico, e prevedono una dimensione minima predefinita dei file di 32 KB. L'implementazione è progettata per un utilizzo ridotto della CPU e della memoria. La deduplicazione può essere implementata nei carichi di lavoro seguenti

  • Condivisioni di file generici: pubblicazione e condivisione di contenuto di gruppo, home directory dell'utente e Reindirizzamento di cartelle/File offline

  • Condivisioni di distribuzione software: file binari del software, immagini e aggiornamenti

  • Librerie VHD: archiviazione dei file su disco rigido virtuale (VHD) per il provisioning agli hypervisor

  • Distribuzioni di VDI (solo Windows Server 2012 R2): distribuzioni di Virtual Desktop Infrastructure (VDI) tramite Hyper-V

  • Backup virtualizzato: soluzioni di backup (ad esempio, DPM in esecuzione in una macchina virtuale Hyper-V) che salvano i dati di backup su file VHD/VHDX in un File server di Windows.

Ulteriori informazioni su Pianificazione della deduplicazione.

Vantaggi aziendali

L’utilizzo della deduplicazione con DPM può generare notevoli risparmi. La quantità di spazio salvato dalla deduplicazione con l'ottimizzazione dei dati di backup di DPM varia a seconda del tipo di dati di cui viene eseguito il backup. Un backup di un server di database crittografato, ad esempio, potrebbe produrre un risparmio minimo perché tutti i dati duplicati sono nascosti a causa del processo di crittografia. Il backup di una distribuzione di Virtual Desktop Infrastructure (VDI) di grandi dimensioni può comportare notevoli risparmi nell'intervallo fra il 70% e il 90%, poiché in genere esiste una grande quantità di dati duplicati tra gli ambienti desktop virtuali. Nella configurazione descritta in questo argomento è stata eseguita una serie di carichi di lavoro di test ottenendo risparmi compresi tra 50% e il 90%.

Distribuzione consigliata

Per distribuire DPM come macchina virtuale per il backup dei dati su un volume deduplicato è consigliabile la topologia di distribuzione seguente:

  • DPM in esecuzione su una macchina virtuale in un cluster host Hyper-V.

  • Archiviazione di DPM utilizzando i file VHD/VHDX archiviati in una condivisione SMB 3.0 su un file server.

  • Per questo esempio di distribuzione, il file server è stato configurato come file server con scalabilità orizzontale (SOFS) distribuito tramite volumi di archiviazione configurati da pool di Spazi di archiviazione creati utilizzando unità SAS connesse direttamente. Si noti che questa distribuzione garantisce prestazioni a livello di scala.

Dedup and VHDX

Tenere presente quanto segue:

  • Questo scenario è supportato per DPM 2012 R2

  • Lo scenario è supportato per tutti i carichi di lavoro per i quali DPM 2012 R2 è in grado di eseguire il backup dei dati.

  • Tutti i nodi di File Server Windows in cui si trovano i dischi rigidi virtuali di DPM e sui quali verrà abilitata la deduplicazione devono eseguire Windows Server 2012 R2 con aggiornamento cumulativo del novembre 2014.

Forniremo consigli e istruzioni generali per la distribuzione di questo scenario. Ogni volta che vengono forniti esempi specifici dell'hardware, l'hardware distribuito su Microsoft Cloud Platform System (CPS) viene utilizzato per riferimento.

Hardware testato

Questo scenario utilizza condivisioni SMB 3.0 remote per archiviare i dati di backup, in modo che i requisiti hardware principali siano incentrati sui nodi di File Server anziché sui nodi Hyper-V. La seguente configurazione hardware viene utilizzata in CPS per l'archiviazione di backup e di produzione. Si noti che l'hardware nel complesso viene utilizzato per l'archiviazione sia di backup che di produzione, ma il numero di unità elencate in contenitori di unità include solo quelli utilizzati per il backup.

  • Cluster di 4 nodi di File Server con scalabilità orizzontale

  • Configurazione per nodo

    • 2 CPU Intel (r) Xeon(R) E5-2650 0 a 2,00 GHz, MHz 2001, 8 core, 16 processori logici

    • Memoria RDIMM 128 GB 1333 MHz

    • Connessioni di archiviazione: 2 porte SAS, 1 porta 10GbE iWarp/RDMA

  • 4 contenitori per unità JBOD

    • 18 dischi in ogni JBOD – 16 HDD da 4TB + 2 SSD da 800 GB

    • Percorso doppio per ogni unità - criterio Multipath I/O con bilanciamento del carico impostato su solo failover

    • SSD configurati per cache write-back (WBC) e il resto per unità journal dedicate

Pianificare e configurare i volumi deduplicati

Si prendano in considerazione le dimensioni che i volumi devono avere per supportare i file VHDX deduplicati contenenti dati di DPM. In CPS abbiamo creato volumi di 7,2 TB ognuno. Le dimensioni ottimali di un volume dipendono principalmente dalla quantità e dalla frequenza delle modifiche apportate ai dati su tale volume e dalla velocità effettiva di accesso ai dati del sottosistema di archiviazione su disco. È importante notare che, se il processo di deduplicazione non è in grado di restare sincronizzato con la frequenza delle modifiche quotidiane ai dati (varianza) il tasso di risparmio si ridurrà significativamente prima che il processo possa essere completato. Per ulteriori informazioni vedere l’articolo sul dimensionamento di volumi per la deduplicazione dei dati. Le seguenti linee guida generali sono consigliate per i volumi dedup:

  • Utilizzare spazi di archiviazione con parità con riconoscimento del contenitore per maggiore resilienza ed efficienza di utilizzo del disco.

  • Formato NTFS con unità di allocazione da 64 KB e segmenti di record di file ampi per operare con utilizzo di dedup su file sparsi.

  • Nella configurazione hardware precedentemente illustrata, le dimensioni del volume consigliato considerano volumi di 7,2 TB che verranno configurati come segue:

    • 7,2 TB + 1 GB di cache write-back, doppia parità, con riconoscimento del contenitore

      • ResiliencySettingName == Parity

      • PhysicalDiskRedundancy == 2

      • NumberOfColumns == 7

      • Interleave == 256KB (le prestazioni di doppia parità con interleave di 64KB sono molto inferiori di quelle con interleave predefinito di 256KB)

      • IsEnclosureAware = = $true

      • AllocationUnitSize = 64KB

      • Servizio Replica file (FRS) di grandi dimensioni

      Configurare un nuovo disco virtuale nel pool di archiviazione specificato come indicato di seguito:

      New-VirtualDisk -Size 7.2TB -PhysicalDiskRedundancy 2 -ResiliencySettingName Parity -StoragePoolFriendlyName BackupPool -FriendlyName BackupStorage -NumberOfColumns 7 -IsEnclosureAware $true
      
    • Ognuno di questi volumi deve essere formattato come segue:

      Format-Volume -Partition <volume> -FileSystem NTFS -AllocationUnitSize 64KB –UseLargeFRS -Force
      

      Nella distribuzione di CPS, tali volumi vengono quindi configurati come volumi CVS.

    • All'interno di questi volumi, DPM archivierà una serie di file VHDX per contenere i dati di backup. Abilitare la deduplicazione sul volume dopo la formattazione, come indicato di seguito:

      Enable-DedupVolume –Volume <volume> -UsageType HyperV
      Set-DedupVolume -Volume <volume> -MinimumFileAgeDays 0 -OptimizePartialFiles:$false
      

      Questo comando inoltre modifica le impostazioni di deduplicazione a livello di volume come segue:

      • Impostare UsageType su HyperV: ciò comporta l'elaborazione dei file aperti da parte del processo di deduplicazione, condizione necessaria perché i file VHDX usati da DPM per l'archiviazione dei backup rimangano aperti con DPM in esecuzione nella propria macchina virtuale.

      • Disabilitare PartialFileOptimization: in questo modo dedup ottimizza tutte le sezioni di un file aperto anziché ricercare le sezioni modificate con una durata minima.

      • Impostare il parametro MinFileAgeDays su 0: con il parametro PartialFileOptimization disabilitato, MinFileAgeDays modifica il proprio comportamento in modo che la deduplicazione consideri solo i file che non sono stati modificati per il numero di giorni impostato. Poiché si desidera che la deduplicazione inizi a elaborare i dati di backup in tutti i file VHDX di DPM senza alcun ritardo, è necessario impostare MinFileAgeDays su 0.

Per ulteriori informazioni sull'impostazione della deduplicazione vedere l’articolo su installare e configurare la duplicazione dei dati.

Pianificare e configurare l'archiviazione di DPM

Per evitare problemi di frammentazione e mantenere l'efficienza, l’archiviazione di DPM viene allocata utilizzando file VHDX che risiedono in volumi deduplicati. 10 file VHDX dinamici ognuno di 1 TB sono creati per ogni volume e collegati a DPM. Si noti che 3 TB di overprovisioning di archiviazione sono stati impostati per sfruttare il risparmio di spazio di archiviazione prodotto dalla deduplicazione. Mentre la dedup. produce risparmi di spazio di archiviazione aggiuntivo, è possibile creare nuovi file VHDX in tali volumi per consumare lo spazio salvato. Il server DPM è stato testato con un massimo di 30 file VHDX collegati a esso.

  1. Eseguire questo comando per creare dischi rigidi virtuali che verranno aggiunti in seguito al server DPM:

    New-SCVirtualDiskDrive -Dynamic -SCSI -Bus $Bus -LUN $Lun -JobGroup $JobGroupId -VirtualHardDiskSizeMB 1048576 -Path $Using:Path -FileName <VHDName>
    
  2. Aggiungere quindi i dischi rigidi virtuali creati al server DPM come indicato di seguito:

    Import-Module "DataProtectionManager"
    Set-StorageSetting -NewDiskPolicy OnlineAll
    $dpmdisks = @()
    $dpmdisks = Get-DPMDisk -DPMServerName $env:computername | ? {$_.CanAddToStoragePool –
    eq $true -and $_.IsInStoragePool -eq $false -and $_.HasData -eq $false}
    Add-DPMDisk $dpmdisks
    

    Si noti che questo passaggio configura un pool di archiviazione come disco o dischi in cui DPM archivierà le repliche e i punti di ripristino per i dati protetti. Questo pool è parte della configurazione di DPM ed è separato dal pool di spazi di archiviazione utilizzato per creare i volumi di dati descritti nella sezione precedente. Per ulteriori informazioni sui pool di archiviazione di DPM vedere l’articolo configurare pool di archiviazione e dischi di archiviazione.

Pianificare e configurare il cluster di File Server di Windows

La deduplicazione richiede una serie speciale di opzioni di configurazione per supportare l'archiviazione di DPM virtualizzata a causa della scala dei dati e delle dimensioni dei singoli file. Queste opzioni sono globali per il cluster o il nodo del cluster. È necessario abilitare la deduplicazione e le impostazioni del cluster devono essere configurate singolarmente su ogni nodo del cluster.

  1. Abilitare la deduplicazione sull'archiviazione dei File Server di Windows: il ruolo di deduplicazione deve essere installato su tutti i nodi del cluster di File Server di Windows. A questo scopo, eseguire il comando PowerShell seguente in ogni nodo del cluster:

    Install-WindowsFeature -Name FileAndStorage-Services,FS-Data-Deduplication -ComputerName <node name>
    
  2. Ottimizzare l'elaborazione di deduplicazione per il backup dei file di dati: eseguire questo comando PowerShell per impostare l’avvio immediato dell’ottimizzazione e non per ottimizzare le scritture parziali su file. Si noti che per impostazione predefinita, i processi di Garbage Collection (GC) sono pianificati ogni settimana e ogni quattro settimane il processo GC viene eseguito in modalità "GC approfondita" per una ricerca più completa e onerosa in termini di tempo dei dati da rimuovere. Per il carico di lavoro di DPM, la modalità "GC approfondita" non comporta miglioramenti apprezzabili e riduce la quantità di tempo in cui la deduplicazione può ottimizzare i dati. Abbiamo pertanto disabilitato la modalità "GC approfondita".

    Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name DeepGCInterval -Value 0xFFFFFFFF
    
  3. Ottimizzare le prestazioni per le operazioni su larga scala: eseguire lo script PowerShell seguente:

    • Disabilitare elaborazione aggiuntiva e I/O durante l’esecuzione della garbage collection approfondita

    • Riservare memoria aggiuntiva per l'elaborazione di hash

    • Abilitare l'ottimizzazione delle priorità per consentire la deframmentazione immediata dei file di grandi dimensioni

    Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name HashIndexFullKeyReservationPercent -Value 70
    Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name EnablePriorityOptimization -Value 1
    

    Queste impostazioni modificano quanto riportato di seguito:

    • HashIndexFullKeyReservationPercent: questo valore determina la quantità di memoria del processo di ottimizzazione usata per gli hash di blocchi esistenti, rispetto agli hash di blocchi nuovi. A scala elevata, un valore del 70% comporta una migliore velocità effettiva di ottimizzazione rispetto al valore predefinito di 50%.

    • EnablePriorityOptimization: con l'approssimarsi a 1 TB dei file, la frammentazione di un singolo file può accumulare abbastanza frammenti da raggiungere il limite stabilito per file. L’elaborazione di ottimizzazione consente di consolidare i frammenti e impedisce che tale limite venga raggiunto. Impostando questa chiave del Registro di sistema, la deduplicazione aggiungerà un processo aggiuntivo per gestire con priorità alta i file deduplicati con elevata frammentazione.

Pianificare e configurare DPM e la pianificazione di deduplicazione

Le operazioni sia di backup che di deduplicazione comportano un utilizzo intensivo dell’I/O. Se fossero eseguite contemporaneamente, il sovraccarico introdotto dal passaggio tra le operazioni potrebbe essere oneroso e causare il backup o la deduplicazione di una minore quantità di dati su base giornaliera. Si consiglia di configurare finestre dedicate e separate per la deduplicazione e il backup. Ciò garantisce che il traffico di I/O per ognuna di queste operazioni sia distribuito in modo efficiente durante le operazioni del sistema ogni giorno. Le linee guida consigliate per la pianificazione sono:

  • Suddividere i giorni in finestre non sovrapposte per il backup e la deduplicazione.

  • Configurare pianificazioni di backup personalizzate.

  • Configurare pianificazioni di deduplicazione personalizzate.

  • Pianificare l'ottimizzazione nella finestra di deduplicazione giornaliera.

  • Configurare separatamente le pianificazioni di deduplicazione nei fine settimana , utilizzando tale periodo di tempo per i processi di garbage collection e di pulitura.

Per configurare pianificazioni di DPM è possibile utilizzare il comando PowerShell seguente:

Set-DPMConsistencyCheckWindow -ProtectionGroup $mpg -StartTime $startTime –
DurationInHours $duration
Set-DPMBackupWindow -ProtectionGroup $mpg -StartTime $startTime –DurationInHours
$duration

In questa configurazione, DPM è configurato per eseguire il backup di macchine virtuali tra le ore 22 e le ore 6. La deduplicazione è pianificata per le rimanenti 16 ore del giorno. Si noti che il tempo effettivo di deduplicazione configurato dipenderà dalla dimensione del volume. Per ulteriori informazioni vedere l’articolo sul Dimensionamento di volumi per la deduplicazione dei dati. Una finestra di deduplicazione di 16 ore con avvio alle ore 6 dopo il termine della finestra di backup sarà configurata come indicato di seguito da qualsiasi nodo del cluster singolo:

#disable default schedule
Set-DedupSchedule * -Enabled:$false
#Remainder of the day after an 8 hour backup window starting at 10pm $dedupDuration = 16
$dedupStart = "6:00am"
#On weekends GC and scrubbing start one hour earlier than optimization job.
# Once GC/scrubbing jobs complete, the remaining time is used for weekend
# optimization.
$shortenedDuration = $dedupDuration - 1
$dedupShortenedStart = "7:00am"
#if the previous command disabled priority optimization schedule
#reenable it
if ((Get-DedupSchedule -name PriorityOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name PriorityOptimization -Enabled:$true
}
#set weekday and weekend optimization schedules
New-DedupSchedule -Name DailyOptimization -Type Optimization -DurationHours $dedupDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -Days Monday,Tuesday,Wednesday,Thursday,Friday
New-DedupSchedule -Name WeekendOptimization -Type Optimization -DurationHours $shortenedDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupShortenedStart -Days Saturday,Sunday
#re-enable and modify scrubbing and garbage collection schedules
Set-DedupSchedule -Name WeeklyScrubbing -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Sunday
Set-DedupSchedule -Name WeeklyGarbageCollection -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Saturday
#disable background optimization
if ((Get-DedupSchedule -name BackgroundOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name BackgroundOptimization -Enabled:$false
}

Ogni volta che la finestra di backup viene modificata è essenziale che anche la finestra di deduplicazione sia modificata in modo non si sovrappongano. Le finestre di deduplicazione e di backup non devono necessariamente riempire tutte le 24 ore del giorno, tuttavia ciò è consigliabile per consentire variazioni nel tempo di elaborazione dovute ai cambiamenti previsti quotidianamente per i carichi di lavoro e la varianza dei dati.

Implicazioni per le prestazioni di backup

Dopo aver deduplicato un set di file, può esistere un leggero calo delle prestazioni durante l'accesso ai file. Ciò è dovuto all’elaborazione aggiuntiva necessaria per accedere al formato di file utilizzato dai file deduplicati. In questo scenario, i file sono un set di file VHDX soggetti a un utilizzo continuo da parte di DPM durante la finestra di backup. L'impatto della presenza di questi file deduplicati comporta che le operazioni di backup e ripristino possono essere leggermente più lente di quanto sarebbero senza deduplicazione. Come per qualsiasi prodotto di backup, DPM implica un carico di lavoro pesante in termini di operazioni di scrittura, mentre le operazioni di lettura risultano più importanti durante il ripristino. Di seguito sono riportati alcuni consigli per risolvere le implicazioni relative alle prestazioni di backup dovute alla deduplicazione:

  • Operazioni di lettura/ripristino: gli effetti sulle operazioni di lettura sono in genere trascurabili e non richiedono considerazioni speciali poiché la funzionalità di deduplicazione memorizza nella cache i blocchi deduplicati.

  • Operazioni di scrittura/backup: pianificare considerando un aumento del tempo di backup di circa 5-10% nella definizione della finestra di backup. (Si tratta di un aumento rispetto al tempo di backup previsto nel caso di scrittura su volumi non deduplicati).

Monitoraggio

DPM e la deduplicazione dati possono essere monitorati per assicurarsi che:

  • Sia stato eseguito il provisioning di spazio su disco sufficiente per archiviare i dati di backup

  • I processi di backup di DPM siano completati normalmente

  • La deduplicazione sia abilitata nei volumi di backup

  • Le pianificazioni di deduplicazione siano impostate correttamente

  • L’elaborazione di deduplicazione sia completata normalmente su base giornaliera

  • I tassi di risparmio per la deduplicazione corrispondano alle ipotesi effettuate per la configurazione del sistema

Il successo della deduplicazione dipende dalle capacità dell’hardware del sistema complessivo, (incluse velocità di elaborazione della CPU, larghezza di banda di I/O, capacità di archiviazione), dalla configurazione corretta del sistema, dal carico medio del sistema e dalla quantità di dati modificati giornalmente.

È possibile monitorare DPM utilizzando la Console centrale DPM. Vedere l’articolo su come Installare la Console centrale.

È possibile monitorare la deduplicazione per controllarne lo stato, il tasso di risparmio e lo stato di pianificazione, utilizzando i seguenti comandi PowerShell:

Get status:

PS C:\> Get-DedupStatus
FreeSpace SavedSpace OptimizedFiles InPolicyFiles Volume
-------------- ---------- -------------- ------------- ------
280.26 GB 529.94 GB 36124 36125 X:
151.26 GB 84.19 GB 43017 43017 Z:

Get savings:

PS C:\> Get-DedupVolume
Enabled SavedSpace SavingsRate Volume
------- ---------- ----------- ------
True 529.94 GB 74 % X:

Per ottenere lo stato di pianificazione utilizzare il cmdlet Get-DedupSchedule.

Monitoraggio degli eventi

Il monitoraggio del registro eventi può aiutare a comprendere gli eventi di deduplicazione e il relativo stato.

  • Per visualizzare gli eventi di deduplicazione in Esplora File, accedere a Registri applicazioni e servizi > Microsoft > Windows > Deduplicazione.

  • Se il valore LastOptimizationResult = 0x00000000 appare nei risultati di Get-DedupStatus |fl Windows PowerShell, l'intero set di dati è stato elaborato dal processo di ottimizzazione precedente. In caso contrario il sistema non è riuscito a completare l'elaborazione di deduplicazione e potrebbe essere consigliabile controllare le impostazioni di configurazione, ad esempio le dimensioni del volume.

Per ulteriori esempi di cmdlet, vedere Monitoraggio e report per la deduplicazione dati.

Monitoraggio dell’archiviazione di backup

Nell'esempio di configurazione presentato i volumi da 7,2 TB sono riempiti con 10 TB di dati "logici" (ovvero, la dimensione dei dati quando non sono deduplicati) archiviati in 10 x 1 TB di file VHDX dinamici. Mentre in questi file si accumuleranno continuamente nuovi dati di backup, il volume si riempirà lentamente. Se la percentuale di risparmio derivante dalla deduplicazione è sufficientemente elevata, tutti i 10 file saranno in grado di raggiungere la rispettiva dimensione logica massima rimanendo comunque entro il volume di 7,2 TB (potenzialmente potrebbe anche esistere ulteriore spazio in cui allocare file VHDX aggiuntivi da utilizzare per i server DPM). Se tuttavia il risparmio di spazio derivante dalla deduplicazione non è sufficiente, lo spazio nel volume potrebbe esaurirsi prima che i file VHDX raggiungano le dimensioni logiche massime e il volume sia pieno. Per evitare che lo spazio nei volumi si esaurisca, si consiglia quanto segue:

  • Considerare requisiti conservativi per le dimensioni dei volumi e consentire un certo overprovisioning di archiviazione. Si consiglia di lasciare un buffer di almeno il 10% nella pianificazione dello spazio utilizzato per l’archiviazione di backup per prevedere variazioni del risparmio di deduplicazione e della varianza dei dati.

  • Monitorare i volumi utilizzati per l'archiviazione di backup per garantire che l’utilizzo di spazio e i tassi di risparmio della deduplicazione siano entro i livelli previsti.

Se il volume si riempie, si verificano i sintomi seguenti:

  • La macchina virtuale di DPM entrerà in uno stato critico/di sospensione e non sarà più in grado di avviare ulteriori processi di backup.

  • Tutti i processi di backup che utilizzano i file VHDX nel volume pieno avranno esito negativo.

Per risolvere questa condizione e riportare il sistema al normale funzionamento, è possibile eseguire il provisioning di ulteriore spazio di archiviazione ed eseguire una migrazione di archiviazione della macchina virtuale DPM o dei rispettivi file VHDX per liberare spazio:

  1. Arrestare il Server DPM a cui appartengono i file VHDX contenuti nella condivisione di backup piena.

  2. Creare un nuovo volume e una nuova condivisione di backup utilizzando la stessa configurazione e impostazioni utilizzate per le condivisioni esistenti, incluse le impostazioni per NTFS e deduplicazione.

  3. Eseguire la migrazione di archiviazione per la macchina virtuale del Server DPM e la migrazione di almeno un file VHDX dalla condivisione di backup piena alla nuova condivisione di backup creata nel passaggio 2.

  4. Eseguire un processo di garbage collection (GC) di deduplicazione dei dati nella condivisione di backup di origine piena. Il processo di garbage collection deve avere esito positivo e recuperare lo spazio libero.

  5. Riavviare la macchina virtuale del Server DPM.

  6. Un processo di verifica della coerenza DPM verrà attivato durante la successiva finestra di backup per tutte le origini dati che precedentemente erano in errore.

  7. Tutti i processi di backup saranno ora completati correttamente.

Conclusione

La combinazione della deduplicazione con DPM consente un risparmio di spazio significativo. Ciò consente tassi di conservazione superiori, maggiore frequenza di backup e un migliore TCO per la distribuzione di DPM. Le linee guida e i consigli forniti in questo documento dovrebbero fornire gli strumenti e le informazioni necessari per configurare la deduplicazione per l'archiviazione DPM e verificarne i vantaggi nella propria distribuzione.

Domande frequenti

D: I file VHDX di DPM devono essere di dimensioni pari a 1 TB. Questo significa che DPM non può eseguire il backup di una macchina virtuale, di un volume SharePoint, di un database SQL o di un volume di file di dimensioni > 1TB?

R: No. DPM esegue l’aggregazione di più volumi in uno per archiviare i backup. La dimensione di 1 TB per i file non comporta quindi alcuna implicazione per le dimensioni delle origini dati di cui DPM può eseguire il backup.

D: Sembra che file VHDX di archiviazione di DPM debbano essere distribuiti solo su condivisioni file SMB remote. Cosa succede se archivio i file VHDX di backup in volumi abilitati per la deduplicazione nello stesso sistema in cui viene eseguita la macchina virtuale di DPM?

R: Come indicato in precedenza, DPM, Hyper-V e dedup sono operazioni con uso intensivo di calcolo e archiviazione. La combinazione di tutti e tre i parametri in un singolo sistema può comportare operazioni con utilizzo intensivo di I/O ed elaborazione complesse che potrebbero esaurire Hyper-V e relative macchine virtuali. Se si decide di sperimentare la configurazione di DPM in una macchina virtuale con i volumi di archiviazione di backup nella stessa macchina, sarà necessario monitorare con attenzione le prestazioni per assicurarsi che vi siano sufficienti larghezza di banda di I/O e capacità di elaborazione per mantenere tutte e tre le operazioni nella stessa macchina.

D: Si consiglia di configurare finestre dedicate e separate per la deduplicazione e il backup. Perché non è possibile abilitare la deduplicazione mentre viene eseguito il backup di DPM? Devo eseguire il backup del database SQL ogni 15 minuti.

R: La deduplicazione e DPM sono operazioni con uso intensivo di archiviazione e l'esecuzione contemporanea di entrambi gli elementi può risultare inefficiente e causare l'esaurimento delle risorse di I/O. Per proteggere i carichi di lavoro con frequenza superiore a una volta al giorno (ad esempio ogni 15 minuti per il Server SQL) e abilitare la deduplicazione nello stesso tempo, è necessario pertanto garantire che vi siano sufficienti larghezza di banda di I/O e capacità di elaborazione per evitare l'esaurimento delle risorse.

D: In base alla configurazione descritta, DPM deve essere in esecuzione in una macchina virtuale. Perché non è possibile abilitare direttamente la deduplicazione sul volume di replica e sui volumi di copie shadow anziché in file VHDX?

R: Dedup esegue la deduplicazione per ogni volume sui singoli file. Poiché dedup esegue l’ottimizzazione a livello di file, non è progettata per supportare la tecnologia VolSnap utilizzata da DPM per archiviare i dati di backup. Eseguendo DPM in una macchina virtuale, Hyper-V esegue il mapping delle operazioni di DPM sui volumi a livello di file VHDX, consentendo a dedup di ottimizzare i dati di backup e fornire maggiore risparmio di spazio di archiviazione.

D: La configurazione di esempio precedente ha creato solo volumi da 7,2 TB. È possibile creare volumi di dimensioni maggiori o minori?

R: Dedup esegue un thread per ogni volume. Con il crescere della dimensione del volume, dedup richiede più tempo per completare l'ottimizzazione. D'altra parte con volumi ridotti esistono meno dati in cui trovare blocchi duplicati con conseguente riduzione del risparmio offerto. È pertanto consigliabile ottimizzare le dimensioni del volume in base alla varianza totale e alle capacità hardware del sistema per ottenere un risparmio ottimale. Informazioni più dettagliate sulla determinazione delle dimensioni dei volumi sono reperibili nell’articolo che illustra il Dimensionamento dei volumi per la deduplicazione in Windows Server. Per informazioni più dettagliate sulla determinazione delle dimensioni dei volumi utilizzati con la deduplicazione, vedere l’articolo che illustra il Dimensionamento dei volumi per la deduplicazione dei dati.