Netezza から Azure Synapse Analytics へのデータ ウェアハウス移行用のツール

この記事は、Netezza から Azure Synapse Analytics に移行する方法に関するガイダンスを提供する 7 つのパートから成るシリーズのパート 6 です。 この記事の焦点は、Microsoft とサード パーティのツールのベスト プラクティスです。

データ ウェアハウス移行ツール

既存のデータ ウェアハウスを Azure Synapse に移行すると、次のメリットが得られます。

  • グローバルにセキュリティで保護され、スケーラブル、低コスト、クラウドネイティブである従量課金制の分析データベース。

  • Azure に存在するリッチな Microsoft 分析エコシステム。 このエコシステムを構成するテクノロジを使用すると、移行後にデータ ウェアハウスを最新化し、分析機能を拡張して新しい価値を促進することができます。

Microsoft とサード パーティ パートナーのいくつかのツールは、既存のデータ ウェアハウスを Azure Synapse に移行するのに役立ちます。 この記事では、次の種類のツールについて説明します。

  • Microsoft のデータとデータベースの移行ツール。

  • Azure Synapse への移行を自動化および文書化するためのサードパーティのデータ ウェアハウス自動化ツール。

  • スキーマとデータを Azure Synapse に移行するためのサードパーティのデータ ウェアハウス移行ツール。

  • 既存のデータ ウェアハウス DBMS と Azure Synapse の間の SQL の違いを橋渡しするためのサード パーティ製ツール。

Microsoft データ移行ツール

Microsoft は、既存のデータ ウェアハウスを Azure Synapse に移行するために役立つ次のようないくつかのツールを提供します。

  • Azure Data Factory

  • 物理データ転送用の Microsoft サービス。

  • データ インジェスト用の Microsoft サービス。

次のセクションでは、これらのツールについてさらに詳しく説明します。

Microsoft Azure Data Factory

Data Factory は、スケーラビリティが高い ETL と ELT 処理のための、フル マネージドで従量課金制のハイブリッド データ統合サービスです。 Apache Spark を使用してデータを並列にメモリ内で処理および分析し、スループットを最大化します。

ヒント

Data Factory を使用すると、コードなしでスケーラブルなデータ統合パイプラインを構築できます。

Data Factory コネクタでは、外部データ ソースとデータベースへの接続がサポートされ、一般的なデータ統合タスク用のテンプレートが含まれています。 フロントエンドのビジュアルなブラウザーベースの UI を使用すると、プログラマ以外のユーザーが、データの取り込み、変換、読み込みを行うパイプラインを作成して実行できます。 経験豊富なプログラマは、Python プログラムなどのカスタム コードを組み込むことができます。

ヒント

Data Factory を使用すると、ビジネスと IT のプロフェッショナルによる共同開発作業が可能になります。

Data Factory はオーケストレーション ツールでもあり、エンドツーエンドの移行プロセスを自動化するための最適な Microsoft ツールです。 自動化により、移行のリスク、労力、時間が削減され、移行プロセスを簡単に繰り返すことができます。 次の図は、Data Factory でのマッピング データ フローを示しています。

Data Factory マッピング データフローの例を示すスクリーンショット。

次のスクリーンショットは、Data Factory でのラングリング データ フローを示しています。

Data Factory ラングリング データ フローの例を示すスクリーンショット。

Data Factory では、数回クリックするだけで、コーディングやメンテナンスの不要なシンプルまたは包括的な ETL および ELT プロセスを開発できます。 ETL/ELT プロセスでは、データを取り込み、移動し、準備し、変換し、処理します。 Data Factory 内でスケジュールとトリガーを設計および管理して、自動化されたデータ統合および読み込みの環境を構築できます。 Data Factory では、PolyBase の一括データ読み込みプロセスを定義、管理、スケジュールできます。

ヒント

Data Factory には、データとデータ ウェアハウス全体の両方を Azure に移行するために役立つツールが含まれています。

Data Factory を使用して、オンプレミス、クラウド、ストリーミング、および SaaS データを含むハイブリッド環境を、セキュリティで保護された一貫性のある方法で実装および管理できます。 SaaS データは、Salesforce などのアプリケーションから取得される場合があります。

ラングリング データ フローは、Data Factory の新機能です。 この機能により、Data Factory は、コードを記述せずに大規模にデータを視覚的に検出、探索、準備したいビジネス ユーザーに開放されます。 ラングリング データ フローは、Microsoft Excel、Power Query、Microsoft Power BI データフローに似たセルフサービスのデータ準備を提供します。 ビジネス ユーザーは、ドロップダウン変換オプションを備えたスプレッドシート スタイルの UI を使用してデータを準備および統合できます。

Data Factory は、特に既存のレガシ プロセスをリファクタリングする必要がある場合に、Azure Synapse 環境でデータ統合と ETL/ELT プロセスを実装するための推奨されるアプローチです。

物理データ転送用の Microsoft サービス

次のセクションでは、データ転送でお客様を支援するために Microsoft が提供するさまざまな製品とサービスについて説明します。

Azure ExpressRoute

Azure ExpressRoute は、Azure のデータ センターと、オンプレミスやコロケーション環境にあるインフラストラクチャとの間にプライベート接続を作成します。 ExpressRoute 接続はパブリック インターネットを経由しないため、一般的なインターネット接続と比べて信頼性が高く、高速で、待ち時間も短くなります。 オンプレミスのシステムと Azure 間のデータ転送に ExpressRoute 接続を使用することで、コスト上の大きなメリットが得られることがあります。

AzCopy

AzCopy は、標準のインターネット接続を介して Azure Blob Storage にファイルをコピーするコマンド ライン ユーティリティです。 ウェアハウス移行プロジェクトでは、AzCopy を使用して、抽出および圧縮された、区切り文字で区切られたテキスト ファイルをアップロードしてから、PolyBase を使用して Azure Synapse に読み込むことができます。 AzCopy は、個々のファイル、選択された一連のファイル、またはファイル フォルダーをアップロードできます。 エクスポートされたファイルが Parquet 形式の場合は、代わりにネイティブの Parquet リーダーを使用してください。

Azure Data Box

Azure Data Box は、移行データをコピーできる独自の物理ストレージ デバイスを提供する Microsoft サービスです。 その後、クラウド ストレージにデータをアップロードするために、デバイスを Azure データ センターに送付します。 数十テラバイトや数百テラバイトなどの大量のデータがある場合や、十分なネットワーク帯域幅を利用できない場合は、コスト効率の点でこのサービスが優れている可能性があります。 Azure Data Box は、通常、Azure Synapse への大規模な 1 回限りの履歴データの読み込みに使用されます。

Azure Data Box Gateway

Azure Data Box Gateway は、お客様のオンプレミスに存在し、お客様のイメージ、メディア、およびその他のデータを Azure に送信する仮想クラウド ストレージ ゲートウェイ デバイスです。 Data Box Gateway を使用して、1 回限りの移行タスクまたは継続的な増分データ アップロードを行います。

データ インジェスト用の Microsoft サービス

次のセクションでは、データ インジェストでお客様を支援するために Microsoft が提供する製品とサービスについて説明します。

COPY INTO

COPY INTO ステートメントを使用すると、Azure Synapse への高スループットのデータ インジェストで最大の柔軟性が確保されます。  COPY INTO機能の詳細については、「COPY (Transact-SQL)」を参照してください。

PolyBase

PolyBase は、Azure Synapse への一括データ読み込みのための最も高速でスケーラブルな方法です。 PolyBase は、Azure Synapse の超並列処理 (MPP) アーキテクチャを使用してデータの並列読み込みを行い、最速のスループットを実現します。 PolyBase は、Azure Blob Storage 内のフラット ファイルからデータを読み取ることも、コネクタを介して外部データ ソースやその他のリレーショナル データベースから直接データを読み取ることもできます。

ヒント

PolyBase は、Azure Blob Storage から Azure Synapse に並列にデータを読み込むことができます。

PolyBase は、gzip で圧縮されたファイルから直接読み取って、読み込みプロセス中のデータの物理ボリュームを減らすこともできます。 PolyBase は、区切りテキスト、ORC、Parquet などの一般的なデータ形式をサポートします。

ヒント

移行パイプラインの一部として、Data Factory から PolyBase を呼び出すことができます。

PolyBase は、Data Factory と緊密に統合されており、データ読み込みの ETL / ELTプロセスの迅速な開発をサポートしています。 ビジュアル UI を使用してデータ読み込みプロセスをスケジュールすると、手動で記述したコードよりも生産性が向上し、エラーが少なくなります。 Microsoft では、Azure Synapse へのデータ インジェスト、特に大量のデータ インジェストに PolyBase をお勧めしています。

PolyBase は、CREATE TABLE AS ステートメントまたは INSERT...SELECT ステートメントを使用してデータを読み込みます。 CREATE TABLE AS は、ログ記録を最小限に抑えて、最高のスループットを実現します。 データ読み込みの最も効率的な入力形式は、圧縮済みの区切りテキストファイルです。 最大のスループットを実現するには、大きな入力ファイルを複数の小さなファイルに分割し、これらを並列に読み込みます。 ステージング テーブルに最も高速に読み込むには、ターゲット テーブルを型 HEAP として定義し、ラウンドロビン分散を使用します。

PolyBase にはいくつかの制限があり、データ行の長さを 1 メガバイト未満にする必要があり、JSON や XML などの固定幅の入れ子になった形式をサポートしていません。

Netezza 移行の Microsoft パートナー

Microsoft パートナーは、従来のオンプレミス データ ウェアハウス プラットフォームを Azure Synapse に移行するのに役立つツール、サービス、専門知識を提供します。

次のステップ

最新のデータ ウェアハウスの実装の詳細については、このシリーズの次の記事「Netezza の移行に加えて、Microsoft Azure に最新のデータ ウェアハウスを実装する」を参照してください。