DPM 記憶域の重複除去
発行: 2016年3月
この記事では、DPM 記憶域の重複除去を有効にすることによって DPM 記憶域の使用量を削減する方法について説明します。 このシナリオでは、DPM は Hyper-V 仮想マシンで実行しており、データ重複除去が有効になっている Windows ファイル サーバー上の共有フォルダーの VHD にバックアップ データを格納します。
概要
現在、IT 管理者はデータ増加の大きな課題に直面しています。次の図は、IDC による 2020 年までの世界中のデータの予測を示したものです。 企業データの増加は、バックアップ記憶域のニーズの増加をもたらします。
データの増加は、メンテナンスとハードウェアのコストを増やします。 次に示すように、IT 管理者の 62% がハードウェア/ソフトウェアのコストとメンテナンス コストの増加を心配しています。 調査の詳細については、データの急増による影響に関する Informatica のブログをご覧ください。
IT 管理者は、操作復旧ニーズや組織の法令遵守の要件を満たすために、運用データをバックアップします。 本質的に、バックアップは多くの記憶域を必要とする操作であり、バックアップ記憶域の消費量を減らすことは IT 管理者の最優先事項の 1 つです。
重複除去は、記憶域消費量削減の必要性に対応できます。 データ セット内の冗長性の量は、ワークロードと使用されるデータの種類に依存しますが、一般に、重複除去を使用するとバックアップ データに大きな削減効果があります。 似たデータセットを使用する似たワークロードからのデータをバックアップするときは、冗長性が高くなり、したがって重複除去による削減量が増える可能性があります。 DPM は重複除去を利用してこれらの利点を提供します。
DPM の概要
System Center Data Protection Manager は企業向けバックアップ ソリューションであり、次のような機能を提供します。
アプリケーション対応のバックアップと回復 — DPM は、クライアント、サーバー、仮想マシン、ファイル サーバーのデータ、およびアプリケーションのワークロードを保護します。 最短 15 分間隔でワークロードをバックアップする機能など、柔軟なバックアップ オプションを提供します。 DPM はさまざまな回復機能を備えています。 たとえば、現在の運用 SQL Server データベースの古いコピーへの置き換え、調査を目的とした別の場所へのデータベースの回復、法務部門にコピーを提供するためのファイルとしての回復などが可能です。 DPM を利用すれば、IT 管理者は必要な回復の種類を選択できます。DPM は、エンド ユーザー回復をサポートします。 たとえば、SQL 管理者、ファイル システム管理者、またはクライアント ユーザーは、管理者の手助けなしですべてのデータを直接回復できます。
動的な環境では、運用サーバーは絶えず新しいデータを作成しています。 DPM が提供するインスタンス レベルの保護は、ワークロードによって作成される新しいデータを自動的に検出して構成するので、バックアップ管理者は安心です。 バックアップ管理者が手動でデータの新しいインスタンスを見つけて、バックアップの構成に追加する必要性はありません。
大規模な企業にも対応するスケーリングと一元管理: 1 台の DPM サーバーで、80 TB の運用データまたは 100 台の運用サーバーを保護できます。 DPM 中央コンソールを展開して、一元的な場所から最大 100 台の DPM サーバーを管理できます。 DPM 中央レポート機能を使用して、すべての DPM サーバーについてのカスタム レポートを簡単に生成できます。
効率的なプライベート クラウドの保護 — プライベート クラウドのデータ センターが、スタンドアロン サーバーの Hyper-V 仮想マシンを実行するように構成されていても、または Windows ファイル サーバー上の SMB ファイル共有へのリモート接続を使用する Windows サーバーの Hyper-V 仮想マシンであっても、DPM は DPM 独自の仮想マシン バックアップ テクノロジを使用して仮想マシンを効率的にバックアップできます。
たとえば、DPM は仮想マシンの移行を検出し、自動的に継続して仮想マシンを保護します。バックアップ管理者が積極的に介入する必要はありません。 仮想マシンが別のホストに移行されても、同じ DPM サーバーが引き続きバックアップを行うので、DPM の変更や手動手順は必要ありません。
クラウド統合バックアップ — ワークロードが Hyper-V プライベート クラウド、Azure パブリック クラウド、ホスト側クラウドのどこに展開されていても、DPM は柔軟に保護します。 Azure で Microsoft のワークロードを実行している場合は、Azure で実行する DPM を利用してこれらのワークロードを保護できます。 DPM は、Azure Backup サービスを使用する Azure へのオフサイト バックアップをサポートします。 Azure Backup サービスは DPM の保護と回復のワークフローに統合されているので、簡単にオフサイト バックアップの設定を管理して、複数年のデータを保持できます。 Azure Backup は必要なオフサイト配布とテープ メンテナンスの機能を備えており、テープ バックアップの代わりに使用できます。 バックアップ管理者は、テープ メンテナンスの面倒な作業から完全に解放されます。
データ重複除去の概要
データ重複除去は、Windows Storage Server 2008 の単一インスタンス記憶域 (SIS) に代わる次世代機能として Windows Server 2012 で導入されました。 高度な可変ブロック サイズのチャンク アルゴリズムを使用して、ボリューム単位に最大限の重複除去効果を提供します。 後処理アプローチを使用して、ファイル システムのすべてのセマンティクスを保持し、プライマリ データ パスのパフォーマンスにほとんど影響がないようにします。 詳細については、「データ重複除去の概要」をご覧ください。
データ重複除去は、専用のハードウェアを追加することなくプライマリ データ ボリュームにインストールできるように設計されており、サーバーの主要なワークロードに影響を与えません。 既定の設定は非破壊的であり、データは 5 日間保持されてから、ファイルごとの処理が行われます。既定の最小ファイル サイズは 32 KB です。 実装はメモリと CPU の使用量が少なくなるように設計されています。 重複除去は次のワークロードに実装できます。
一般的なファイル共有: グループ コンテンツの公開および共有、ユーザー ホーム フォルダー、フォルダー リダイレクト/オフライン ファイル
ソフトウェア展開共有: ソフトウェア バイナリ、イメージ、更新プログラム
VHD ライブラリ: ハイパーバイザーへのプロビジョニング用の仮想ハード ディスク (VHD) ファイル記憶域
VDI の展開 (Windows Server 2012 R2 のみ): Hyper-V を用いた仮想デスクトップ インフラストラクチャ (VDI) の展開
仮想化されたバックアップ: Windows ファイル サーバー上の VHD/VHDX ファイルにバックアップ データを保存するバックアップ ソリューション (Hyper-V 仮想マシンで実行する DPM など)
詳細については、「データ重複除去の展開計画」をご覧ください。
ビジネス上のメリット
DPM で重複除去を使用すると大きな効果があります。 DPM バックアップ データを最適化するときに重複除去によって削減される領域の量は、バックアップされるデータの種類によって異なります。 たとえば、暗号化されたデータベース サーバーのバックアップでは、暗号化プロセスによって重複するデータが隠蔽されるため、削減量は最も少なくなります。 一方、大規模な仮想デスクトップ インフラストラクチャ (VDI) の展開のバックアップでは、通常、仮想デスクトップ環境の間に大量のデータ重複があるので、削減量は 70 ~ 90+ 以上と非常に大きくなります。 このトピックで説明する構成では、さまざまなテスト ワークロードを実行した結果、削減量は 50 ~ 90% になりました。
推奨される展開
重複除去されたボリュームにデータをバックアップする仮想マシンとして DPM を展開する場合は、次の展開トポロジをお勧めします。
Hyper-V ホスト クラスターの仮想マシンで実行する DPM。
ファイル サーバーの SMB 3.0 共有に格納される VHD/VHDX ファイルを使用する DPM 記憶域。
この展開例では、直接接続されている SAS ドライブを使用して構築された記憶域スペース プールから構成されている記憶域ボリュームを使用して展開されたスケール アウト ファイル サーバー (SOFS) として、ファイル サーバーを構成しました。 この展開では大きな規模でのパフォーマンスが保証されることに注意してください。
次の点に注意してください。
このシナリオは DPM 2012 R2 に対してサポートされます。
このシナリオは、DPM 2012 R2 でデータをバックアップできるすべてのワークロードに対してサポートされます。
DPM 仮想ハード ディスクが存在し、重複除去が有効にされる、すべての Windows ファイル サーバー ノードで、Windows Server 2012 R2 および 2014 年 11 月付け更新プログラムのロールアップを実行している必要があります。
このシナリオの展開についての一般的な推奨事項と手順について説明します。 ハードウェア固有の例を示すときは常に、Microsoft クラウド プラットフォーム システム (CPS) に展開されているハードウェアを参照用に使用します。
テストに使用するハードウェア
このシナリオではリモート SMB 3.0 共有を使用してバックアップ データを格納するので、主要なハードウェア要件は Hyper-V ノードではなくファイル サーバー ノードが基になります。バックアップおよび運用記憶域用の CPS では、次のハードウェア構成を使用します。 ハードウェア全体はバックアップと運用両方の記憶域に使用されますが、ドライブ格納装置に示されている数のドライブは、バックアップのみに使用されることに注意してください。
4 ノードのスケール アウト ファイル サーバー クラスター
ノードごとの構成
2 個の Intel(R) Xeon(R) CPU E5-2650 0: 2.00 GHz、2001 MHz、8 コア、16 論理プロセッサ
128 GB 1333 MHz RDIMM メモリ
記憶域の接続: SAS ポート × 2、10 GbE iWarp/RDMA ポート × 1
4 台の JBOD ドライブ格納装置
各 JBOD に 18 台のディスク – 16 × 4 TB HDD + 2 × 800 GB SSD
各ドライブへのデュアル パス - フェールオーバーのみに設定されたマルチパス I/O 負荷分散ポリシー
ライトバック キャッシュ (WBC) 用に構成された SSD と、専用ジャーナル ドライブ用のその他
重複除去されるボリュームの計画とセットアップ
DPM データを含む重複除去された VHDX ファイルをサポートするためのボリュームの大きさについて考えてみます。 CPS では、各 7.2 TB のボリュームを作成しました。 最適なボリュームのサイズは、ボリュームのデータが変更される量と頻度、およびディスク記憶域サブシステムのデータ アクセス スループットによって決まります。 重複除去処理が毎日のデータ変更の速度 (チャーン) に追いつかない場合、処理が完了するまで削減率が低下することに注意してください。 詳細については、「Sizing Volumes for Data Deduplication (データ重複除去のボリュームのサイズ決定)」をご覧ください。 重複除去ボリュームには、次の一般的なガイドラインが推奨されます。
回復性とディスク使用率向上のため、格納装置対応のパリティ記憶域スペースを使用します。
スパース ファイルの重複除去効率を上げるため、64 KB の割り当て単位と大きいファイル レコード セグメントで NTFS をフォーマットします。
上記のハードウェア構成では、推奨されるボリューム サイズは 7.2 TB であり、ボリュームを次のように構成します。
格納装置を認識するデュアル パリティ 7.2 TB + 1 GB ライトバック キャッシュ
ResiliencySettingName == Parity
PhysicalDiskRedundancy == 2
NumberOfColumns == 7
Interleave == 256 KB (64 KB インターリーブでのデュアル パリティ パフォーマンスは、既定の 256 KB インターリーブでのパフォーマンスよりはるかに劣ります)
IsEnclosureAware == $true
AllocationUnitSize = 64 KB
大規模な FRS
指定した記憶域プールの新しい仮想ディスクを次のように設定します。
New-VirtualDisk -Size 7.2TB -PhysicalDiskRedundancy 2 -ResiliencySettingName Parity -StoragePoolFriendlyName BackupPool -FriendlyName BackupStorage -NumberOfColumns 7 -IsEnclosureAware $true
これらの各ボリュームを次のようにフォーマットする必要があります。
Format-Volume -Partition <volume> -FileSystem NTFS -AllocationUnitSize 64KB –UseLargeFRS -Force
CPS の展開では、これらは CSV として構成されます。
これらのボリューム内では、DPM は一連の VHDX ファイルを格納してバックアップ データを保持します。 フォーマットした後、次のようにしてボリュームでの重複除去を有効にします。
Enable-DedupVolume –Volume <volume> -UsageType HyperV Set-DedupVolume -Volume <volume> -MinimumFileAgeDays 0 -OptimizePartialFiles:$false
このコマンドでは、次のボリューム レベルの重複除去設定も変更します。
UsageType を HyperV に設定する: これにより重複除去処理はファイルを開きます。DPM によってバックアップ記憶域に使用される VHDX ファイルは DPM が仮想マシンで実行している間は開いたままなので、これが必要です。
PartialFileOptimization を無効にする: これにより重複除去は、最小経過期間の変更されたセクションをスキャンするのではなく、開いているファイルの全セクションを最適化します。
MinFileAgeDays パラメーターを 0 に設定する: PartialFileOptimization を無効にすると、MinFileAgeDays はその日数内に変更されていないファイルだけを重複除去が考慮するように動作を変更します。 すべての DPM VHDX ファイル内のバックアップ データの処理がすぐに開始されるようにするので、MinFileAgeDays を 0 に設定する必要があります。
重複除去の設定の詳細については、「データ重複除去のインストールおよび構成」をご覧ください。
DPM 記憶域の計画とセットアップ
断片化の問題を回避し、効率性を維持するため、重複除去されたボリュームに存在する VHDX ファイルを使用して DPM 記憶域を割り当てます。 それぞれが 1 TB の動的な VHDX ファイルを各ボリュームに 10 個作成し、DPM にアタッチします。 重複除去によるストレージ削減を活用するため、記憶域の 3 TB を過剰プロビジョニングすることに注意してください。 重複除去により記憶域が減るので、ボリュームに新しい VHDX ファイルを作成して削減された領域を使用できます。 DPM サーバーに最大 30 個の VHDX ファイルをアタッチしてテストしました。
次のコマンドを実行して仮想ハード ディスクを作成し、後で DPM サーバーに追加します。
New-SCVirtualDiskDrive -Dynamic -SCSI -Bus $Bus -LUN $Lun -JobGroup $JobGroupId -VirtualHardDiskSizeMB 1048576 -Path $Using:Path -FileName <VHDName>
作成された仮想ハード ディスクを次のようにして DPM サーバーに追加します。
Import-Module "DataProtectionManager" Set-StorageSetting -NewDiskPolicy OnlineAll $dpmdisks = @() $dpmdisks = Get-DPMDisk -DPMServerName $env:computername | ? {$_.CanAddToStoragePool – eq $true -and $_.IsInStoragePool -eq $false -and $_.HasData -eq $false} Add-DPMDisk $dpmdisks
この手順では、DPM が保護対象データのレプリカおよび回復ポイントを格納するディスク (1 台または複数) として記憶域プールを構成することに注意してください。 このプールは DPM 構成の一部であり、前のセクションで説明したデータ ボリュームの作成に使用される記憶域スペース プールとは別のものです。 DPM 記憶域プールの詳細については、「記憶域プールおよびディスク記憶域の構成」をご覧ください。
Windows ファイル サーバー クラスターの計画とセットアップ
データのスケールおよび個々のファイルのサイズにより、重複除去では、仮想化される DPM 記憶域をサポートするために特別な構成オプションのセットが必要です。 これらのオプションは、クラスターまたはクラスター ノード全体に適用されます。 重複除去を有効にする必要があり、クラスターの各ノードでクラスター設定を個別に構成する必要があります。
Windows ファイル サーバー記憶域で重複除去を有効にする — Windows ファイル サーバー クラスターのすべてのノードに重複除去ロールをインストールする必要があります。 そのためには、クラスターの各ノードで次の PowerShell コマンドを実行します。
Install-WindowsFeature -Name FileAndStorage-Services,FS-Data-Deduplication -ComputerName <node name>
バックアップ データ ファイルの重複除去処理をチューニングする — 次の PowerShell コマンドを実行して、待機なしで最適化を開始し、部分的なファイルの書き込みを最適化しないように設定します。 既定では、ガベージ コレクション (GC) ジョブは毎週実行するようにスケジュールされており、さらに 4 週間ごとに "詳細 GC" モードで実行して削除するデータをさらに時間をかけて包括的に検索するようになっています。 DPM ワークロードの場合、この "詳細 GC" モードによるメリットは何もなく、重複除去がデータの最適化に使用できる時間が減るだけです。 したがって、この詳細モードを無効にします。
Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name DeepGCInterval -Value 0xFFFFFFFF
大規模な操作に対するパフォーマンスをチューニングする — 次の PowerShell スクリプトを実行して以下のことを行います。
詳細ガベージ コレクション実行時の追加の処理と I/O を無効にします。
ハッシュ処理用に追加メモリを確保します。
優先順位の最適化を有効にして大きいファイルの即時最適化を可能にします。
Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name HashIndexFullKeyReservationPercent -Value 70 Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name EnablePriorityOptimization -Value 1
これらの設定により以下の値が変更されます。
HashIndexFullKeyReservationPercent: この値は、新しいチャンク ハッシュと比較して既存のチャンク ハッシュに使用される最適化ジョブ メモリの量を制御します。 規模が大きい場合、既定の 50% より 70% の方が最適化スループットが向上します。
EnablePriorityOptimization: ファイルが 1 TB に近づくと、1 つのファイルの断片化がファイルごとの制限に近づくほどに蓄積する可能性があります。 最適化処理はこれらの断片化をまとめて、この制限に達しないようにします。 このレジストリ キーを設定すると、重複除去に断片化が進んでいるファイルを優先的に重複除去する処理が追加されます。
DPM および重複除去スケジュールの計画とセットアップ
バックアップと重複除去の操作はどちらも大量の I/O を実行します。 両方を同時に実行すると、操作を切り替えるオーバーヘッドのコストが増加し、1 日あたりのバックアップまたは重複除去されるデータ量が減る場合があります。 重複除去ウィンドウとバックアップ ウィンドウを分けてそれぞれの専用として構成することをお勧めします。 これにより、各操作の I/O トラフィックが 1 日のシステム操作に効率的に分散されるようになります。 スケジュールに関する推奨ガイドラインは次のとおりです。
バックアップ ウィンドウと重複除去ウィンドウを重ならないように分割します。
カスタム バックアップ スケジュールを設定します。
カスタム重複除去スケジュールを設定します。
毎日の重複除去ウィンドウに最適化をスケジュールします。
週末の重複除去スケジュールを別に設定し、その時間を使用してガベージ コレクション ジョブとスクラブ ジョブを実行します。
次の PowerShell コマンドを使用して DPM のスケジュールを設定できます。
Set-DPMConsistencyCheckWindow -ProtectionGroup $mpg -StartTime $startTime –
DurationInHours $duration
Set-DPMBackupWindow -ProtectionGroup $mpg -StartTime $startTime –DurationInHours
$duration
この構成では、DPM は午後 10 時 ~ 午前 6 時の間に仮想マシンをバックアップするように構成されます。 重複除去は、残りの 16 時間にスケジュールされます。 実際に構成する重複除去時間はボリュームのサイズに応じて決めることに注意してください。 詳細は、「Sizing Volumes for Data Deduplication (データ重複除去のボリュームのサイズ決定)」をご覧ください。 バックアップ ウィンドウの終了後、午前 6 時から開始する 16 時間の重複除去ウィンドウは、任意の個別クラスター ノードから次のように構成します。
#disable default schedule
Set-DedupSchedule * -Enabled:$false
#Remainder of the day after an 8 hour backup window starting at 10pm $dedupDuration = 16
$dedupStart = "6:00am"
#On weekends GC and scrubbing start one hour earlier than optimization job.
# Once GC/scrubbing jobs complete, the remaining time is used for weekend
# optimization.
$shortenedDuration = $dedupDuration - 1
$dedupShortenedStart = "7:00am"
#if the previous command disabled priority optimization schedule
#reenable it
if ((Get-DedupSchedule -name PriorityOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name PriorityOptimization -Enabled:$true
}
#set weekday and weekend optimization schedules
New-DedupSchedule -Name DailyOptimization -Type Optimization -DurationHours $dedupDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -Days Monday,Tuesday,Wednesday,Thursday,Friday
New-DedupSchedule -Name WeekendOptimization -Type Optimization -DurationHours $shortenedDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupShortenedStart -Days Saturday,Sunday
#re-enable and modify scrubbing and garbage collection schedules
Set-DedupSchedule -Name WeeklyScrubbing -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Sunday
Set-DedupSchedule -Name WeeklyGarbageCollection -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Saturday
#disable background optimization
if ((Get-DedupSchedule -name BackgroundOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name BackgroundOptimization -Enabled:$false
}
バックアップ ウィンドウを変更したときは常に、それに合わせて重複除去ウィンドウも変更し、両者が重ならないようにすることが重要です。 重複除去ウィンドウとバックアップ ウィンドウは 24 時間を完全に占めるように設定しなくてもかまいませんが、ワークロードとデータ チャーンの予想される毎日の変更量による処理時間の変動に対応できるようにすることを強くお勧めします。
バックアップのパフォーマンスへの影響
一連のファイルが重複除去された後、ファイルにアクセスするときのパフォーマンスがわずかに低下する可能性があります。 これは、重複除去されたファイルによって使用されているファイル形式へのアクセスに必要な追加処理のためです。 このシナリオでは、ファイルは一連の VHDX ファイルであり、バックアップ ウィンドウの間も DPM によって継続的に使用されます。 これらのファイルの重複除去による影響として、重複除去が行われない場合よりバックアップ操作と回復操作が若干遅くなることがあります。 他のバックアップ製品と同様に、DPM は書き込みの量が多いワークロードで、復元操作中は読み取り操作が最も重要です。 重複除去によるバックアップのパフォーマンスに対する影響を解決するための推奨事項は次のとおりです。
読み取り/復元操作: 重複除去機能は重複除去されたチャンクをキャッシュするので、読み取り操作への影響は通常ごくわずかであり、特別な配慮を必要としません。
書き込み/バックアップ操作: バックアップ ウィンドウを定義するときは、バックアップ時間が約 5 ~ 10% 増加するものとして計画します。 (これは、重複除去されていないボリュームに書き込むときに予想されるバックアップ時間と比較したときの増加です)。
監視
DPM とデータ重複除去を監視して次のことを確認できます。
バックアップ データを格納するのに十分なディスク領域がプロビジョニングされている
DPM バックアップ ジョブが正常に完了している
バックアップ ボリュームで重複除去が有効になっている
重複除去スケジュールが正しく設定されている
重複除去の処理が毎日正常に完了している
重複除去の削減率がシステム構成に対する予想と一致している
重複除去が成功するかどうかは、システムの全体的なハードウェア機能 (CPU 処理速度、I/O 帯域幅、記憶域の容量など)、適切なシステム構成、システムの平均負荷、および 1 日あたりのデータ変更量によって決まります。
DPM 中央コンソールを使用して DPM を監視できます。 「中央コンソールのインストール」をご覧ください。
次の PowerShell コマンドを使用して重複除去を監視し、重複除去の状態、削減率、スケジュールの状態を確認できます。
状態の取得:
PS C:\> Get-DedupStatus
FreeSpace SavedSpace OptimizedFiles InPolicyFiles Volume
-------------- ---------- -------------- ------------- ------
280.26 GB 529.94 GB 36124 36125 X:
151.26 GB 84.19 GB 43017 43017 Z:
削減率の取得:
PS C:\> Get-DedupVolume
Enabled SavedSpace SavingsRate Volume
------- ---------- ----------- ------
True 529.94 GB 74 % X:
スケジュールの状態を取得するには Get-DedupSchedule コマンドレットを使用します。
イベントの監視
イベント ログを監視することにより、重複除去のイベントと状態を把握できます。
重複除去のイベントを表示するには、ファイル エクスプ ローラーで、[アプリケーションとサービス ログ]、[Microsoft]、[Windows]、[重複除去] の順に移動します。
Get-DedupStatus |fl Windows PowerShell の結果として値 LastOptimizationResult = 0x00000000 が表示される場合は、データ セット全体が前回の最適化ジョブによって処理されています。 それ以外の値の場合は、システムは重複除去処理を完了できなかったので、ボリューム サイズなどの構成設定の確認が必要かもしれません。
コマンドレットの詳細な例については、「Monitor and Report for Data Deduplication (データ重複除去の監視とレポート)」をご覧ください。
バックアップ記憶域の監視
この構成例では、7.2 TB のボリュームが 10 個の 1 TB 動的 VHDX ファイルに格納された 10 TB の "論理" データ (重複除去されていない状態のデータのサイズ) で満たされています。 これらのファイルにはバックアップ データが追加されて蓄積されるので、ボリュームは少しずつ埋まっていきます。 重複除去による削減率が十分に高い場合は、10 個のファイルすべてが最大論理サイズに達することができ、それでもまだ 7.2 TB ボリュームに収まります (DPM サーバー用の追加 VHDX ファイルを割り当てる領域さえ存在する可能性があります)。 しかし、重複除去によるサイズ削減量が十分ではない場合は、VHDX ファイルが最大論理サイズに到達する前にボリュームがいっぱいになる可能性があります。 ボリュームがいっぱいになるのを防ぐため、以下のことをお勧めします。
ボリューム サイズの要件はできるだけ控えめにして、記憶域の過剰プロビジョニングを可能にします。 バックアップ記憶域の使用量の計画時には少なくとも 10% のバッファーを設け、重複除去の削減量とデータ チャーンの予想される変動に対応できるようにすることをお勧めします。
バックアップ記憶域に使用されるボリュームを監視し、領域の使用率と重複除去の削減率が予想されるレベルであることを確認します。
ボリュームがいっぱいになった場合は、次のような現象が発生します。
DPM の仮想マシンが一時停止で重大な状態になり、その VM ではそれ以上バックアップ ジョブを発行できなくなります。
いっぱいになったボリュームの VHDX ファイルを使用するすべてのバックアップ ジョブが失敗します。
この状況から回復してシステムを通常の動作に復元するには、追加の記憶域をプロビジョニングし、DPM 仮想マシンの記憶域またはその VHDX の移行を実行して、領域を解放します。
完全バックアップ共有の VHDX ファイルを所有している DPM サーバーを停止します。
NTFS と重複除去の設定など、既存の共有に使用したものと同じ構成および設定を使用して、追加のボリュームおよびバックアップ共有を作成します。
DPM サーバー仮想マシン用の記憶域を移行し、完全バックアップ共有から手順 2 で作成した新しいバックアップ共有に少なくとも 1 つの VHDX ファイルを移行します。
いっぱいになったソース バックアップ共有でデータ重複除去ガベージ コレクション (GC) ジョブを実行します。 GC ジョブが成功すると、空き領域が回収されます。
DPM サーバーの仮想マシンを再起動します。
次のバックアップ ウィンドウの間に、前回失敗したすべてのデータ ソースに対して、DPM 整合性チェック ジョブが実行されます。
すべてのバックアップ ジョブが成功するようになります。
まとめ
重複除去と DPM を組み合わせることで、かなりの領域を節約できます。 これにより、DPM の展開に対して高い保持率、高頻度のバックアップ、優れた TCO を実現できます。 このドキュメントのガイダンスと推奨事項では、ユーザー自身の展開の DPM 記憶域用に重複除去を構成し、そのメリットを確認できるツールと情報を提供しました。
FAQ
Q: DPM VHDX ファイルのサイズは 1 TB にする必要があります。 これは、サイズが 1 TB を超える VM、SharePoint、SQL DB、ファイルのボリュームは DPM ではバックアップできないということでしょうか。
A: いいえ。 DPM は、複数のボリュームを 1 つに集約してバックアップを格納します。 したがって、1 TB というファイル サイズは、DPM でバックアップできるデータ ソースのサイズにどのような影響も及ぼしません。
Q: DPM 記憶域の VHDX ファイルはリモート SMB ファイル共有のみに展開する必要があるようですが、 DPM の仮想マシンが実行しているのと同じシステムの重複除去を有効にしたボリュームにバックアップの VHDX ファイルを格納するとどうなりますか。
A: 上で説明したように、DPM、Hyper-V、および重複除去は、記憶域と計算処理を大量に使用する操作です。 これら 3 つを 1 つのシステムにまとめると、I/O および処理を大量に使用する操作によって Hyper-V とその VM が阻害される可能性があります。 VM の DPM とバックアップ記憶域ボリュームを同じコンピューターに構成して試してみる場合は、パフォーマンスを注意深く監視し、3 つの操作すべてを同じコンピューターで維持するのに十分な I/O 帯域幅と処理能力があることを確認する必要があります。
Q: 重複除去ウィンドウとバックアップ ウィンドウを分けてそれぞれの専用にすることが推奨されました。 DPM のバックアップ中に重複除去を有効にできないのはなぜですか。 15 分ごとに SQL DB をバックアップする必要があります。
A: 重複除去と DPM は記憶域を大量に使用する操作であり、両方を同時に実行することは非効率的で、I/O 不足の原因になる可能性があります。 そのため、ワークロードを 1 日に複数回保護し (例: SQL Server を 15 分ごと)、同時に重複除去を有効にする場合は、リソースの枯渇を回避するため、I/O 帯域幅と処理能力が十分であることを確認してください。
Q: 説明されている構成に基づくと、DPM は仮想マシンで実行する必要があります。 VHDX ファイルではなく、レプリカ ボリュームおよびシャドウ コピー ボリュームで直接重複除去を有効にできないのはなぜですか。
A: 重複除去は、個別のファイルで動作しているボリュームごとに行われます。 重複除去はファイル レベルで最適化するため、バックアップ データの保存に DPM が利用している VolSnap テクノロジをサポートするように設計されていません。 VM で DPM を実行すると、Hyper-V が DPM のボリューム操作を VHDX ファイル レベルにマップするので、重複除去はバックアップ データを最適化し、より大きな記憶域削減を提供できます。
Q: 上記のサンプル構成では、7.2 TB のボリュームだけを作成しています。 これより大きい、または小さいボリュームを作成できますか。
A: 重複除去は、ボリュームごとに 1 つのスレッドで実行します。 ボリュームのサイズを大きくすると、重複除去が最適化の完了に要する時間が長くなります。 一方、ボリュームを小さくすると、重複するチャンクを検出するデータが少なくなり、削減量が減る可能性があります。 そのため、チャーンの総量とシステム ハードウェアの能力に基づいて、削減量が最高になるように、ボリュームのサイズを調整することをお勧めします。 重複除去で使用するボリューム サイズの決定に関する詳細については、 「Sizing Volumes for Data Deduplication in Windows Server (Windows Server でのデータ重複除去に使用するボリュームのサイズの決定)」をご覧ください。