Apache Spark で Azure Synapse Link for Dataverse データを変換する

[アーティクル]
03/15/2023

Azure Synapse Link を使用して自分の Microsoft Dataverse データを Azure Synapse Analytics に接続し、データを探索したり分析情報の取得時間の短縮したりできます。この記事では、Synapse のワークスペースで利用可能な Apache Spark エンジンを使って、Dataverse データを変換する方法について説明しています。

注意

Azure Synapse Link for Microsoft Dataverse は以前は、Data Lake へのエクスポートと呼ばれていました。このサービスは、2021 年 5 月より名称が変更され、Azure Synapse Analytics だけでなく、Azure Data Lake へのデータのエクスポートも継続されます。

前提条件

ここでは、Azure Synapse Link for Dataverse のサービスを利用した後、Apache Spark で Dataverse データを変換するために必要な前提条件について説明します。

Azure Synapse Link for Dataverse。 このガイドでは、Azure Synapse Link for Dataverse を使用して Dataverse からデータをすでにエクスポートしていることを前提としています。
ストレージアカウントのアクセス。 ストレージアカウントには、次のいずれかのロールが付与されている必要があります。ストレージ BLOB データ閲覧者、ストレージ BLOB データ共同作成者、またはストレージ BLOB データ所有者。
Synapse 管理者。 Synapse Studio 内で Synapse 管理者 ロールへのアクセスが付与されている必要があります。

Apache Spark ノートブックでデータを変換する

Power Apps で、リストから希望する Azure Synapse Link を選択し、Azure Synapse Workspace に移動する を選択します。
データベースを展開し、Dataverse コンテナーを選択します。エクスポート済テーブルは、左側サイドバーのテーブル ディレクトリの下に表示されます。
目的のテーブルを右クリックして、新しいノートブック > DataFrame に読み込む を選択します。
ドロップダウンメニューからプールを選択して、ノートブックを Apache Spark プールにアタッチします。 Apache Spark プールがない場合は、プールの管理 を選択して、作成します。
データを変換するコードセルを追加します。各セルの左側にある再生ボタンを選択して個々のセルを実行するか、トップバーから すべて実行 を選択してすべてのセルを連続して実行します。