状態を元に戻す可用性グループデータベースのトラブルシューティング

[アーティクル]
02/06/2024

この記事は、状態を元に戻す可用性グループデータベースのトラブルシューティングに役立ちます。

状態を元に戻す方法

状態を元に戻すには、セカンダリサーバーがプライマリと同期して戻るために、既に適用されている変更を元に戻す必要がある場合に発生します。

可用性グループのプライマリレプリカとセカンダリレプリカは、プライマリレプリカでの変更がセカンダリレプリカとアクティブに同期されるように、通常の操作中は接続状態のままです。

フェールオーバー中、この接続状態は切断されます。新しいプライマリレプリカがオンラインになると、プライマリレプリカとセカンダリレプリカの間で接続が再確立されます。この初期接続状態の間、新しいセカンダリがプライマリと同期するように復旧を開始する一般的な復旧ポイントがネゴシエートされます。

フェールオーバー時に大規模なトランザクションが実行されている場合は、新しいセカンダリデータベースログがプライマリレプリカデータベースの前にあります。ネゴシエートされた新しい共通復旧ポイントでは、セカンダリレプリカが同期を再開できる状態にするために、プライマリレプリカからページを受信する必要があります。元に戻すプロセスは、"やり直しの元に戻す" とも呼ばれます。

元に戻すプロセスは本質的に遅く、頻繁に発生し、通常は、元に戻す状態をトリガーする小さなトランザクションはほとんど気付かされません。状態を元に戻すと、多くの場合、フェールオーバーによって大きなトランザクションが中断され、多くのページがプライマリからセカンダリに送信され、セカンダリレプリカデータベースが回復可能な状態に戻されます。

状態を元に戻す可用性グループデータベースの症状と効果

データベースがセカンダリレプリカの状態を元に戻している場合、データベースは同期されないため、プライマリレプリカから変更を受け取りません。プライマリレプリカ上のデータベースが突然失われると、データが失われる可能性があります。

Always On ダッシュボードレポートがプライマリで同期されていない

可用性グループをフェールオーバーした後、フェールオーバーが成功している間にセカンダリが同期していないと報告される場合があります。 Always On ダッシュボードでは、プライマリでは同期されず、セカンダリでは [元に戻す] がレポートされます。

Always On ダッシュボードレポートがプライマリで同期されていない	Always On ダッシュボードレポートセカンダリで元に戻す

Always On DMV がプライマリで同期していないと報告される

プライマリ上の次のAlways On可用性グループ (AG) 動的管理ビュー (DMV) を照会すると、データベースは NOT SYNCHRONIZING 状態になります。

SELECT DISTINCT ar.replica_server_name, drcs.database_name, drs.database_id, drs.synchronization_state_desc, drs.database_state_desc
FROM sys.availability_replicas ar 
JOIN sys.dm_hadr_database_replica_states drs 
ON ar.replica_id=drs.replica_id 
JOIN sys.dm_hadr_database_replica_cluster_states drcs
ON drs.group_database_id=drcs.group_database_id

セカンダリ上の DMV に対してクエリを実行すると、可用性グループデータベースは REVERTING 状態になります。

読み取り専用ワークロードとレポートワークロードがセカンダリデータベースにアクセスできない

セカンダリデータベースが元に戻っている間は、アクセスまたはクエリを実行できません。これらの読み取り専用ワークロードはオフラインで中断されます。データベースが状態を元に戻す期間によっては、これらのワークロードがビジネスクリティカルな場合は、それらのワークロードを別のセカンダリレプリカまたはプライマリレプリカに再ルーティングすることが必要になる場合があります。

セカンダリレプリカにルーティングされるレポートワークロードのような読み取り専用ワークロードがある場合、これらのバッチはメッセージ 922 で失敗する可能性があります。

メッセージ 922、レベル 14、状態 1、2 行目のデータベース 'agdb' が復旧中です。回復が完了するまで待機しています。

状態を元に戻してセカンダリレプリカデータベースにログインしようとしているアプリケーションが接続に失敗し、エラー 18456 が発生します。

2023-01-26 13:01:13.100 ログオンエラー: 18456、重大度: 14、状態: 38。 2023-01-26 13:01:13.100 ユーザー 'UserName>'< のログオンログインに失敗しました。理由: 明示的に指定されたデータベース 'agdb' を開けませんでした。 [CLIENT: <ローカルコンピューター>]

このエラーは、失敗したログインが監査されている場合、SQL Serverエラーログにも報告できます。

元に戻す状態の残りの時間を見積もる

次のいずれかの方法を使用して、元に戻す状態の残りの時間を見積もります。

AlwaysOn_health XEvent セッションを使用する

AlwaysOn_health拡張イベント診断ログには、状態の進行状況を 5 分ごとに元に戻すというhadr_trace_messageイベントがあります。

SQL Server Management Studio (SSMS) オブジェクトエクスプローラーを使用してセカンダリレプリカに接続し、管理、拡張イベント、セッションにドリルダウンします。 AlwaysOn_health イベントを右クリックし、[ライブデータの監視] を選択します。元に戻す操作の現在の状態を報告する新しいタブ付きウィンドウが表示されます。状態はイベントを介して hadr_trace_message 5 分ごとに報告され、元に戻す操作の完了率が報告されます。

注:

拡張イベントhadr_trace_messageは、SQL Server 2019 以降の最新の累積的な更新プログラムに追加されました。拡張イベントセッションでこの拡張イベントを確認するには、最新の累積的な更新プログラムを実行している AlwaysOn_health 必要があります。

セカンダリレプリカのSQL Server エラーログは、完了を元に戻す場合にはあまり役に立たない。次の図から、 10:08 から 11:03 までを確認できますが、元に戻す状態では、ほとんど報告されません。セカンダリがプライマリレプリカからすべてのページを受け取ると、元の状態を元に戻した元のプライマリで実行されていたトランザクションをロールバックできるようになりました。復旧は 11:03 から 11:05 まで実行されます。復旧が完了した直後に、データベースはプライマリレプリカとの同期を開始し、セカンダリデータベースが状態を元に戻している間にプライマリで行われたすべての変更に追いつく必要があります。

パフォーマンスモニターを使用して完了時間を元に戻す監視

パフォーマンスカウンター SQL Server:D atabase Replica:Total Log Requiring Undo と SQL Server:D atabase Replica:Log Remaining for Undo を使用して状態の元に戻す進行状況を監視し、インスタンスの可用性グループデータベースを選択します。次のスクリーンショットの例では、 元に戻す必要があるログの合計 は 56.3 mb と報告され、 元に戻すログの残り は、進行状況を元に戻す レポートの 0 にゆっくりと低下しています。

待機以外の他のオプションは何ですか?

Microsoft では、状態を元に戻す完了までの時間を見積もうことをお勧めします。

セカンダリレプリカを可用性グループに追加する

可用性グループにレプリカが 2 つしかない場合は、可能であれば、高可用性と冗長性を提供し、他のセカンダリが元に戻す間にプライマリレプリカとアクティブに同期できる別のセカンダリレプリカを追加します。

重要

データベースが状態を元に戻しているレプリカにフェールオーバーしないでください。これにより、バックアップからの復元が必要な使用できないデータベースが発生する可能性があります。セカンダリレプリカインスタンスを再起動しないでください。このプロセスは高速化されず、状態を元に戻しているセカンダリレプリカデータベースの状態が損なわれる可能性があります。

失敗した読み取り専用ワークロードに対処する方法

元に戻すセカンダリレプリカデータベースにアクセスできないので、読み取り専用ワークロードは失敗しています。読み取り意図ルーティングテーブルを更新して、影響を受けるセカンダリレプリカデータベースの元に戻すプロセスが完了するまで、トラフィックをプライマリレプリカまたは別のセカンダリレプリカにルーティングします。

状態を元に戻さないようにする - 大規模なトランザクションを監視する

計画されたフェールオーバー中にこの状態を頻繁に観察する場合は、フェールオーバーの前に大規模なトランザクションをチェックする手順を実装します。次のクエリは、システム上の開いているトランザクションのトランザクション開始時刻と現在時刻を報告し、トランザクションの入力バッファーを提供します。

SELECT tat.transaction_begin_time, getdate() AS 'current time', es.program_name, es.login_time, es.session_id, tst.open_transaction_count, eib.event_info
FROM sys.dm_tran_active_transactions tat
JOIN sys.dm_tran_session_transactions tst ON tat.transaction_id=tst.transaction_id
JOIN sys.dm_exec_sessions es ON tst.session_id=es.session_id 
CROSS APPLY sys.dm_exec_input_buffer(es.session_id, NULL) eib WHERE es.is_user_process = 1
ORDER BY tat.transaction_begin_time ASC

次の方法で共有

状態を元に戻す可用性グループデータベースのトラブルシューティング

状態を元に戻す方法