Azure Database for PostgreSQL - フレキシブルサーバーでの pg_dump と pg_restore に関するベストプラクティス

[アーティクル]
08/15/2024

適用対象: Azure Database for PostgreSQL - フレキシブルサーバー

この記事では、pg_dump と pg_restore を高速化するためのオプションとベストプラクティスについて説明します。また、pg_restore を実行するための最適なサーバー構成についても説明します。

pg_dump に関するベストプラクティス

pg_dump ユーティリティを使うと、Azure Database for PostgreSQL フレキシブルサーバーデータベースをスクリプトファイルまたはアーカイブファイルに抽出できます。 pg_dump を使用して全体的なダンプ時間を短縮するために使用できるコマンドラインオプションをいくつか次のセクションに示します。

ディレクトリ形式 (-Fd)

このオプションを指定すると、pg_restore へ入力できるディレクトリ形式のアーカイブが出力されます。既定では、出力は圧縮されます。

並列ジョブ (-j)

pg_dump では、並列ジョブオプションを使用してダンプジョブを同時に実行できます。このオプションを使用すると、合計ダンプ時間が短縮されますが、データベースサーバーの負荷が増加します。 CPU、メモリ、IOPS (1 秒あたりの入出力操作) の使用状況など、ソースサーバーのメトリックを注意深く監視した後に、並列ジョブ値を決めることをお勧めします。

並列ジョブオプションの値を設定する場合、pg_dump には次のものが必要です。

接続の数は、並列ジョブの数 +1 と等しくなる必要があるため、必ずそれに応じて max_connections の値を設定してください。
並列ジョブの数は、データベースサーバーに割り当てられた vCPU の数以下にする必要があります。

圧縮 (-Z0)

このオプションでは、使用する圧縮レベルを指定します。ゼロは、圧縮なしを意味します。 pg_dump プロセス中に圧縮をゼロにすると、パフォーマンスが向上する可能性があります。

テーブルの肥大化とバキューム処理

pg_dump プロセスを開始する前に、テーブルのバキューム処理が必要かどうかを検討してください。テーブルの肥大化により、pg_dump の時間が大幅に増加します。テーブルの肥大化を確認するには、次のクエリを実行します。

select schemaname,relname,n_dead_tup,n_live_tup,round(n_dead_tup::float/n_live_tup::float*100) dead_pct,autovacuum_count,last_vacuum,last_autovacuum,last_autoanalyze,last_analyze from pg_stat_all_tables where n_live_tup >0;

このクエリの dead_pct 列は、有効なタプルと比較した場合の使用不能タプルの割合です。テーブルの dead_pct 値が高い場合は、テーブルが適切にバキューム処理されていないことを示している可能性があります。詳細については、「Azure Database for PostgreSQL - フレキシブルサーバーでの自動バキュームのチューニング」を参照してください。

識別するテーブルごとに、次を実行して手動でバキューム処理の分析ができます。

vacuum(analyze, verbose) <table_name>

PITR サーバーを使用する

pg_dump は、オンラインまたはライブサーバーで実行できます。データベースが使用されている場合でも、一貫性のあるバックアップが作成されます。他のユーザーによるデータベースの使用はブロックされません。 pg_dump プロセスを開始する前に、データベースのサイズやその他のビジネスまたは顧客のニーズを検討してください。運用サーバーで pg_dump を実行するには、小規模なデータベースが適している可能性があります。

大規模なデータベースの場合は、運用サーバーからポイントインタイムリストア (PITR) サーバーを作成し、PITR サーバーで pg_dump プロセスを実行できます。 PITR での pg_dump の実行は、コールドランプロセスになります。このアプローチのトレードオフは、実際の運用サーバーで実行される pg_dump プロセスに付随する追加の CPU、メモリ、または IO 使用率を心配せずに済むことです。 PITR サーバーで pg_dump を実行し、pg_dump プロセスが完了したら PITR サーバーを削除できます。

pg_dump の構文

pg_dump には次の構文を使用します。

pg_dump -h <hostname> -U <username> -d <databasename> -Fd -j <Num of parallel jobs> -Z0 -f sampledb_dir_format

pg_restore に関するベストプラクティス

pg_restore ユーティリティを使うと、pg_dump で作成されたアーカイブから Azure Database for PostgreSQL フレキシブルサーバーデータベースを復元できます。全体的な復元時間を短縮するためのコマンドラインオプションをいくつか次のセクションに示します。

並列復元

複数の同時実行ジョブを使用すると、マルチ仮想コアターゲットサーバー上の大規模なデータベースを復元する時間を短縮できます。ジョブの数は、ターゲットサーバーに割り当てられた vCPU の数以下にすることができます。

サーバーパラメーター

新しいサーバーまたは非運用サーバーにデータを復元する場合は、pg_restore を実行する前に、次のサーバーパラメーターを最適化できます。

work_mem = 32 MB
max_wal_size = 65536 (64 GB)
checkpoint_timeout = 3600 #60 分
maintenance_work_mem = 2097151 (2 GB)
autovacuum = off
wal_compression = on

復元が完了したら、これらすべてのパラメーターがワークロード要件に従って適切に更新されていることを確認してください。

Note

十分なメモリとディスク領域がある場合にのみ、上記の推奨事項に従ってください。仮想コアが 2、4、または 8 個の小規模なサーバーの場合は、それに応じてパラメーターを設定します。

その他の考慮事項

pg_restore を実行する前に、高可用性 (HA) を無効にします。
復元が完了した後、移行されたすべてのテーブルを分析します。

pg_restore の構文

pg_restore には次の構文を使用します。

pg_restore -h <hostname> -U <username> -d <db name> -Fd -j <NUM> -C <dump directory>

-Fd: ディレクトリ形式
-j: ジョブの数
-C: データベース自体を作成して、それに再接続するコマンドで出力を開始する

この構文の例を次に示します。

pg_restore -h <hostname> -U <username> -j <Num of parallel jobs> -Fd -C -d <databasename> sampledb_dir_format

仮想マシンに関する考慮事項

仮想マシンは、なるべくターゲットとソースの両方のサーバーがある同じリージョンおよび可用性ゾーンに作成します。または、少なくとも、ソースサーバーまたはターゲットサーバーの近くに仮想マシンを作成します。 Azure Virtual Machines は高パフォーマンスのローカル SSD で使用することをお勧めします。

SKU の詳細については、次を参照してください。

次の方法で共有

Azure Database for PostgreSQL - フレキシブルサーバーでの pg_dump と pg_restore に関するベストプラクティス

pg_dump に関するベストプラクティス

ディレクトリ形式 (-Fd)

並列ジョブ (-j)

圧縮 (-Z0)

テーブルの肥大化とバキューム処理

PITR サーバーを使用する

pg_dump の構文

pg_restore に関するベストプラクティス

並列復元

サーバーパラメーター

その他の考慮事項

pg_restore の構文

仮想マシンに関する考慮事項

次のステップ

フィードバック

その他のリソース

次の方法で共有

Azure Database for PostgreSQL - フレキシブル サーバーでの pg_dump と pg_restore に関するベスト プラクティス

pg_dump に関するベスト プラクティス

ディレクトリ形式 (-Fd)

並列ジョブ (-j)

圧縮 (-Z0)

テーブルの肥大化とバキューム処理

PITR サーバーを使用する

pg_dump の構文

pg_restore に関するベスト プラクティス

並列復元

サーバー パラメーター

その他の考慮事項

pg_restore の構文

仮想マシンに関する考慮事項

次のステップ

フィードバック

その他のリソース

Azure Database for PostgreSQL - フレキシブルサーバーでの pg_dump と pg_restore に関するベストプラクティス

pg_dump に関するベストプラクティス

pg_restore に関するベストプラクティス

サーバーパラメーター