Azure Synapse から Microsoft Fabric にデータとパイプラインを移行する

データとパイプラインの移行の最初のステップは、OneLake で使用できるようにするデータと、移動する予定のパイプラインを特定することです。

データの移行には次の 2 つのオプションがあります。

  • オプション 1: 既定のストレージとしての Azure Data Lake Storage (ADLS) Gen2。 現在 ADLS Gen2 を使用していて、データのコピーを回避したい場合は、 OneLake ショートカットの使用を検討してください。
  • オプション 2: 既定のストレージとしての OneLake。 ストレージ レイヤーとして ADLS Gen2 から OneLake に移行する場合は、ノートブックおよび Spark ジョブ定義から OneLake への読み取り/書き込みを検討してください。

データ移行

オプション 1: ストレージとしての ADLS Gen2 (ショートカット)

ADLS Gen2 を操作していて、データの重複を避けたい場合は、OneLake で ADLS Gen2 ソース パスへのショートカットを作成できます。 次の考慮事項から、Fabric のレイクハウスの [Files] セクションと [Tables] セクション内にショートカットを作成できます。

  • [Files] セクションは、レイクのアンマネージド領域です。 データが CSV、JSON、または Parquet 形式の場合は、この領域へのショートカットの作成をお勧めします。
  • [Tables] セクションは、レイクのマネージド領域です。 Spark マネージド テーブルとアンマネージド テーブルの両方のすべてのテーブルがここに登録されます。 データが Delta 形式の場合は、この領域にショートカットを作成できます。自動検出プロセスによって、これらの Delta テーブルがレイクハウスのメタストアに自動的に登録されます。

ADLS Gen2 ショートカットの作成の詳細について説明します。

オプション 2: ストレージとしての OneLake

OneLake をストレージ レイヤーとして使用し、ADLS Gen2 からデータを移動するには、最初に Azure Synapse Spark 関連の項目を OneLake にポイントしてから、既存のデータを OneLake に転送する必要があります。 前者については、「OneLake と Azure Synapse Spark の統合」に関するページを参照してください。

既存のデータを OneLake に移動するには、いくつかのオプションがあります。

  • mssparkutils fastcp: mssparkutils ライブラリは、ADLS Gen2 から OneLake へのデータのコピーを可能にする fastcp API を提供します。
  • AzCopy: AzCopy コマンドライン ユーティリティ を使用して、ADLS Gen2 から OneLake にデータをコピーできます。
  • Azure Data Factory、Azure Synapse、Data Factory in Fabric: コピー アクティビティを使ってデータをレイクハウスにコピーします。
  • ショートカットを使用する: ショートカットを使用して、OneLake で ADLS Gen2 履歴データを有効にできます。 データ コピーは必要ありません。
  • Azure Storage Explorer: Azure Storage Explorer を使用して、ADLS Gen2 の場所から OneLake にファイルを移動できます。 「OneLake と Azure Storage Explorer の統合方法」を参照してください。

Azure Synapse データ パイプラインにノートブックや Spark ジョブ定義アクティビティが含まれている場合は、それらのパイプラインを Azure Synapse から Fabric の Data Factory データ パイプラインに移動し、ターゲット ノートブックを参照する必要があります。 ノートブック アクティビティは、Data Factory データ パイプラインで使用できます。 Fabric でサポートされているすべてのデータ パイプライン アクティビティについては、こちらを参照してください。