Azure HDInsight アクティビティを実行してデータを変換する

Data Factory for Microsoft Fabric の Azure HDInsight アクティビティでは、次のような Azure HDInsight ジョブタイプを調整できます。

  • Hive クエリを実行する
  • MapReduce プログラムを呼び出す
  • Pig クエリを実行する
  • Spark プログラムを実行する
  • Hadoop Stream プログラムを実行する

この記事では、Data Factory インターフェイスを使用して Azure HDInsight アクティビティを作成するステップバイステップのチュートリアルを提供します。

前提条件

開始するには、次の前提条件を満たしている必要があります。

UI を使用して Azure HDInsight (HDI) アクティビティをパイプラインに追加する

  1. ワークスペースに新しいデータ パイプラインを作成します。

  2. ホーム画面カードからAzure HDInsight を検索して選択するか、アクティビティ バーから [アクティビティ] を選択してパイプライン キャンバスに追加します。

    • ホーム画面のカードからアクティビティを作成:

      新しい Azure HDInsight アクティビティを作成する場所を示すスクリーンショット。

    • アクティビティバーからのアクティビティの作成:

      パイプライン エディター ウィンドウの [アクティビティ] バーから新しい Azure HDInsight アクティビティを作成する場所を示すスクリーンショット。

  3. まだ選択されていない場合は、パイプライン エディターのキャンバスで新しい Azure HDInsight アクティビティを選択します。

    パイプライン エディター キャンバス上の Azure HDInsight アクティビティを示すスクリーンショット。

    [全般設定] タブにあるオプションを構成するには、[全般設定] のガイダンスを参照してください。

HDI クラスターを構成する

  1. [HDI クラスター] タブを選択します。その後、既存の HDInsight 接続を選択するか、新しい [HDInsight 接続]を作成できます。

  2. [リソース接続]では、Azure HDInsight クラスターを参照する Azure Blob Storage を選択します。 既存の Blob ストアを選択するか、または新しいものを作成できます。

    Azure HDInsight アクティビティの HDI クラスターのプロパティを示すスクリーンショット。

設定の構成

[設定] タブを選択して、アクティビティの詳細設定を表示します。

パイプライン エディター ウィンドウの Azure HDInsight アクティビティ プロパティの [設定] タブを示すスクリーンショット。

[Azure Data Factory および Synapse Analytics HDInsight のリンクされたサービス] でサポートされているすべての高度なクラスター プロパティと動的式は、UI の [詳細] セクションにおいて、Microsoft Fabric の Data Factory 用 Azure HDInsight アクティビティでもサポートされるようになりました。 これらのプロパティはすべて、動的コンテンツを含む使いやすくカスタム パラメーター化された式をサポートします。

クラスターの種類

HDInsight クラスターの設定を行うには、まず、[Hive]、[Map Reduce]、[Pig]、[Spark]、[Streaming] などの使用可能なオプションからその[種類]を選択します。

Hive

[種類] として [Hive] を選択した場合、アクティビティは Hive クエリを実行します。 必要に応じて、Hive の種類を 保持するストレージ アカウントを参照する [スクリプト接続] を指定できます。 既定では、[HDI クラスター] タブで指定したストレージ接続が使用されます。 Azure HDInsight で実行する [ファイル パス] を指定する必要があります。 必要に応じて、[詳細設定] セクション、[デバッグ情報]、[クエリ タイムアウト]、[引数]、[パラメーター]、[変数] でさらに構成を指定できます。

Hive のクラスターの種類を示すスクリーンショット。

Map Reduce

[種類] に [Map Reduce] を選択すると、アクティビティによって Map Reduce プログラムが呼び出されます。 必要に応じて、Map Reduce の種類を保持するストレージ アカウントを参照する [Jar 接続] で指定できます。 既定では、[HDI クラスター] タブで指定したストレージ接続が使用されます。 Azure HDInsight で実行する [クラス名] および [ファイル パス] を指定する必要があります。 必要に応じて、Jar ライブラリのインポート、デバッグ情報、引数、パラメーターなど、詳細な構成の詳細を [詳細設定] セクションで指定できます。

HDInsight クラスターの種類に対する Map Reduce の選択を示すスクリーンショット。

Pig

[種類] に [Pig] を選択すると、アクティビティによって Pig クエリが呼び出されます。 必要に応じて、Pig の種類を 保持するストレージ アカウントを参照する [スクリプト接続] 設定を指定できます。 既定では、[HDI クラスター] タブで指定したストレージ接続が使用されます。 Azure HDInsight で実行する [ファイル パス] を指定する必要があります。 必要に応じて、[詳細設定] セクションにて、[デバッグ情報]、[引数]、[パラメーター]、[変数] など、さらに構成を指定できます。

HDInsight クラスターに対する Pig の種類の選択を示すスクリーンショット。

Spark

[種類] に [Spark] を選択すると、アクティビティによって Spark プログラムが呼び出されます。 [Spark の種類] として [スクリプト] または [Jar] を選択します。 必要に応じて、Spark の種類を 保持するストレージ アカウントを参照する [ジョブ接続] を指定できます。 既定では、[HDI クラスター] タブで指定したストレージ接続が使用されます。 Azure HDInsight で実行する [ファイル パス] を指定する必要があります。 必要に応じて、[詳細設定] セクションで、クラス名、プロキシ ユーザー、デバッグ情報、引数、Spark 構成などの追加の構成を指定できます。

HDInsight クラスターに対する Spark の種類の選択を示すスクリーンショット。

ストリーミング

[種類] に [ストリーミング] を選択すると、アクティビティによってストリーミング プログラムが呼び出されます。 [Mapper] と [Reducer] の名前を指定します。必要に応じて、ストリーミングの種類を保持するストレージ アカウントを参照する [ファイル接続] を指定できます。 既定では、[HDI クラスター] タブで指定したストレージ接続が使用されます。 Azure HDInsight で実行する [Mapper 用のファイル パス] と[Reducer 用のファイル パス]を指定する必要があります。 WASB パスの [入力] オプションと [出力] オプションも含めます。 必要に応じて、[詳細設定] セクションにて、[デバッグ情報]、[引数]、[パラメーター] など、さらに構成を指定できます。

HDInsight クラスターに対する ストリーミングの種類の選択を示すスクリーンショット。

プロパティ リファレンス

プロパティ 内容 必須
type Hadoop Streaming アクティビティの場合、アクティビティの種類は HDInsightStreaming です。 はい
mapper mapper 実行可能ファイルの名前を指定します。 はい
reducer reducer 実行可能ファイルの名前を指定します。 はい
combiner combiner 実行可能ファイルの名前を指定します。 いいえ
file connection 実行されるマッパー、コンバイナー、レジューサの各プログラムを格納するために使用される Azure Storage のリンクされたサービスへの参照。 いいえ
ここでは Azure Blob Storage および ADLS Gen2 の接続のみがサポートされています。 この接続を指定しない場合は、HDInsight 接続で定義されているストレージ接続が使用されます。
filePath ファイル接続によって参照される、Azure Storage に格納された マッパー、コンバイナー、レジューサ の各プログラムのパスの配列を指定します。 はい
input マッパーの入力ファイルの WASB パスを指定します。 はい
output レジューサの出力ファイルの WASB パスを指定します。 はい
getDebugInfo HDInsight クラスターで使用されている Azure Storage または scriptLinkedService で指定された Azure Storage にログ ファイルがコピーされるタイミングを指定します。 いいえ
使用できる値は以下の通りです。None、Always、または Failure。 既定値:[なし] :
arguments Hadoop ジョブの引数の配列を指定します。 引数はコマンド ライン引数として各タスクに渡されます。 いいえ
defines Hive スクリプト内で参照するキーと値のペアとしてパラメーターを指定します。 いいえ

パイプラインを保存して実行またはスケジュールする

パイプラインに必要なその他のアクティビティを構成したら、パイプライン エディターの上部にある [ホーム] タブに切り替え、[保存] ボタンを選択してパイプラインを保存します。 [実行] を選択して直接実行するか、[スケジュール] を選択してスケジュールを設定します。 ここで実行履歴を表示したり、他の設定を構成したりすることもできます。

[保存]、[実行]、[スケジュール] ボタンが強調されている、パイプライン エディターの [ホーム] タブのスクリーンショット。

パイプラインの実行を監視する方法