トラブルシューティング: 非同期コミット可用性グループレプリカによるデータ損失の可能性

[アーティクル]
04/26/2023

適用対象: SQL Server

非同期コミットセカンダリレプリカへの可用性グループの強制手動フェールオーバーを実行した後に、データ損失が回復ポイントの目標 (RPO) を超えていることが判明する場合があります。または、「Always On 可用性グループのパフォーマンスを監視する」の方法を使用して非同期コミットセカンダリレプリカの予想されるデータ損失を計算したときに RTO を超過していることが判明します。

同期コミットセカンダリレプリカは、データ損失がないことを保証しますが、非同期コミットセカンダリレプリカのデータ損失の可能性は、セカンダリレプリカ上で書き込まれるのを待機しているログの量に依存します。

次のセクションでは、非同期コミットセカンダリレプリカのデータ損失の可能性が高くなる一般的な原因について説明します。ここでは、可用性グループに関係ないサーバーインスタンスに体系的なパフォーマンスの問題がないことを前提としています。

長いネットワーク遅延またはスループットが低いネットワークは、プライマリレプリカでログの構築の原因になります。
ディスク I/O のボトルネックのために、セカンダリレプリカでログの書き込みが遅くなる

長いネットワーク遅延またはスループットが低いネットワークは、プライマリレプリカでログの構築の原因になります。

データベースが RPO を超える最も一般的な理由は、セカンダリレプリカに十分な速さで送信できないことです。

説明

プライマリレプリカは、セカンダリレプリカに送信される未確認メッセージの許可される最大数を超えたときにログ送信のフロー制御をアクティブにします。これらのメッセージの一部が確認されるまで、セカンダリレプリカにそれ以上のログブロックを送信できません。セカンダリレプリカに書き込まれる場合にのみデータ損失を防ぐことができるので、未送信のログメッセージを構築すると、データ損失の可能性が高くなります。

診断と解決

セカンダリレプリカに多数のメッセージが再送信される場合、長いネットワーク待機時間とネットワークノイズを示している可能性があります。 DMV 値 log_send_rate とパフォーマンスオブジェクトの Log Bytes Flushed/sec を比較することもできます。ログがディスクにフラッシュされる速度が送信される速度よりも早い場合、データ損失の可能性が無制限に増加します。

また、2 つのパフォーマンスオブジェクト SQL Server:Availability Replica > Flow Control Time (ms/sec) と SQL Server:Availability Replica > Flow Control/sec を確認することも役に立ちます。これら 2 つの値を乗算すると、最後の秒で、フロー制御がクリアされるのを待っていた時間が示されます。長いフロー制御待機時間、小さい送信レート。

以下のメトリックは、ネットワーク遅延とスループットの診断に役立ちます。 ping.exe やネットワークモニターなどの他の Windows ツールを使用して、待機時間とネットワーク使用率を評価できます。

DMV sys.dm_hadr_database_replica_states, log_send_queue_size
DMV sys.dm_hadr_database_replica_states, log_send_rate
パフォーマンスカウンターSQL Server:Database > Log Bytes Flushed/sec
パフォーマンスカウンターSQL Server:Database Mirroring > Send/Receive Ack Time
パフォーマンスカウンターSQL Server:Availability Replica > Bytes Sent to Replica/sec
パフォーマンスカウンターSQL Server:Availability Replica > Bytes Sent to Transport/sec
パフォーマンスカウンターSQL Server:Availability Replica > Flow Control Time (ms/sec)
パフォーマンスカウンターSQL Server:Availability Replica > Flow Control/sec
パフォーマンスカウンターSQL Server:Availability Replica > Resent Messages/sec

この問題を解決するには、ネットワーク帯域幅をアップグレードするか、不要なネットワークトラフィックを削除するか減らしてみてください。

ディスク I/O のボトルネックのために、セカンダリレプリカでログの書き込みが遅くなる

データベースファイルの配置によっては、レポートワークロードとの I/O の競合により、ログの書き込みが遅くなる可能性があります。

説明

ログブロックがログファイルに書き込まれるとすぐに、データの損失が回避されます。そのため、ログフィルとデータファイルを分離することが重要です。ログファイルとデータファイルの両方が同じハードディスクにマッピングされている場合、データファイルの読み取りを頻繁に行うレポートワークロードが、ログ書き込み操作に必要な量と同じ I/O リソースを消費します。低速の書き込みのためにプライマリレプリカへの確認が遅くなり、そのためにフロー制御の過度のアクティブ化が発生し、フロー制御の待機時間が長くなる可能性があります。

診断と解決

ネットワークが高待機時間または低スループットの影響を受けていないことを確認した場合、I/O の競合についてセカンダリレプリカを調査する必要があります。「SQL Server: ディスク I/O を最小限に抑える」のクエリは、競合を特定する場合に便利です。便宜上、その記事の例を下に示します。

次のスクリプトは、SQL Server インスタンス上で実行されているすべての可用性データベースに関して、各データファイルとログファイルの読み取りと書き込みの回数を表示することができます。これは平均 I/O 停止時間 (ミリ秒) で並べ替えられます。数字は、前回のサーバーインスタンスの開始時刻からの累積であることに注意してください。そのため、しばらく時間が経過した後に 2 つの測定値の差を取得する必要があります。

SELECT DB_NAME(database_id) AS   
   [Database Name] ,   
   file_id ,   
   io_stall_read_ms ,   
   num_of_reads ,   
   CAST(io_stall_read_ms / ( 1.0 + num_of_reads ) AS NUMERIC(10, 1)) AS [avg_read_stall_ms] ,   
   io_stall_write_ms ,   
   num_of_writes ,  
   CAST(io_stall_write_ms / ( 1.0 + num_of_writes ) AS NUMERIC(10, 1)) AS [avg_write_stall_ms] ,   
   io_stall_read_ms + io_stall_write_ms AS [io_stalls] ,   
   num_of_reads + num_of_writes AS [total_io] ,   
   CAST(( io_stall_read_ms + io_stall_write_ms ) / ( 1.0 + num_of_reads  
+ num_of_writes) AS NUMERIC(10,1)) AS [avg_io_stall_ms]  
FROM sys.dm_io_virtual_file_stats(NULL, NULL)  
WHERE DB_NAME(database_id) IN (SELECT DISTINCT database_name FROM sys.dm_hadr_database_replica_cluster_states)  
ORDER BY avg_io_stall_ms DESC;

次のクエリは、システムで保留中の I/O 要求の特定の時点の (累積ではない) スナップショットを提供します。

SELECT DB_NAME(mf.database_id) AS [Database] ,   
   mf.physical_name ,  
   r.io_pending ,   
   r.io_pending_ms_ticks ,   
   r.io_type ,   
   fs.num_of_reads ,   
   fs.num_of_writes  
FROM sys.dm_io_pending_io_requests AS r   
INNER JOIN sys.dm_io_virtual_file_stats(NULL, NULL) AS fs ON r.io_handle = fs.file_handle   
INNER JOIN sys.master_files AS mf ON fs.database_id = mf.database_id  
AND fs.file_id = mf.file_id  
ORDER BY r.io_pending , r.io_pending_ms_ticks DESC;

読み取り I/O と書き込み I/O が相互にどのような比率になっているかを比較して、I/O の競合を識別することができます。

ボトルネックを診断する際に役立つその他の一部のパフォーマンスカウンターを次に示します。

物理ディスク: すべてのカウンター
物理ディスク: 平均ディスク転送秒数
SQL Server: データベース > ログのフラッシュ待機時間
SQL Server: データベース> ログのフラッシュ待機秒数
SQL Server: データベース > ログプールディスクの読み取り秒数

I/O のボトルネックを特定し、ログファイルとデータファイルが同じハードディスク上に置かれている場合、最初の手順として、データファイルとログファイルを別々のディスクに置く必要があります。このベストプラクティスにより、レポートワークロードが、プライマリレプリカからログバッファーへのログ転送パスに干渉することがなくなり、セカンダリディスク上でトランザクションを書き込む機能に影響しなくなります。

次のステップ

SQL Server (SQL Server 2012 に適用されます) のパフォーマンスに関する問題のトラブルシューティング

次の方法で共有

トラブルシューティング: 非同期コミット可用性グループレプリカによるデータ損失の可能性

長いネットワーク遅延またはスループットが低いネットワークは、プライマリレプリカでログの構築の原因になります。

説明

診断と解決

ディスク I/O のボトルネックのために、セカンダリレプリカでログの書き込みが遅くなる

説明

診断と解決

次のステップ

フィードバック

その他のリソース

次の方法で共有

トラブルシューティング: 非同期コミット可用性グループ レプリカによるデータ損失の可能性

長いネットワーク遅延またはスループットが低いネットワークは、プライマリ レプリカでログの構築の原因になります。

説明

診断と解決

ディスク I/O のボトルネックのために、セカンダリ レプリカでログの書き込みが遅くなる

説明

診断と解決

次のステップ

フィードバック

その他のリソース

トラブルシューティング: 非同期コミット可用性グループレプリカによるデータ損失の可能性

長いネットワーク遅延またはスループットが低いネットワークは、プライマリレプリカでログの構築の原因になります。

ディスク I/O のボトルネックのために、セカンダリレプリカでログの書き込みが遅くなる