Microsoft Fabric の Data Factory での ORC 形式

この記事では、Microsoft Fabric の Data Factory のデータ パイプラインで ORC 形式を構成する方法の概要を示します。

サポートされる機能

ORC 形式は、次のアクティビティとコネクタでソースおよびコピー先としてサポートされています。

カテゴリ コネクタ/アクティビティ
サポートされているコネクタ Amazon S3
Amazon S3 互換
Azure Blob Storage
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Azure Files
ファイル システム
FTP
Google Cloud Storage
HTTP
レイクハウス ファイル
Oracle Cloud Storage
SFTP
サポートされているアクティビティ Copy アクティビティ (コピー元/コピー先)
Lookup アクティビティ
GetMetadata アクティビティ
データの削除アクティビティ

コピー アクティビティの ORC 形式

ORC 形式を構成するには、データ パイプラインの Copy アクティビティのソースまたはコピー先で接続を選び、[ファイル形式] のドロップダウン リストで [ORC] を選びます。 この形式をさらに構成するには、[設定] を選択します。

ファイル形式の設定を示すスクリーンショット。

ソースとしての ORC 形式

[ファイル形式] セクションで [設定] を選択すると、ポップアップの [File format settings] (ファイル形式設定) ダイアログ ボックスに以下のプロパティが表示されます。

ORC ファイル形式のソースを示すスクリーンショット。

  • [圧縮の種類]: ドロップダウン リストで、ORC ファイルの読み取りに使用する圧縮コーデックを選びます。 [なし][zlib] または [snappy] のいずれかを選択できます。

コピー先としての ORC 形式

[設定] を選択すると、[File format settings] (ファイル形式設定) ダイアログ ボックスに以下のプロパティが表示されます。

ORC ファイル形式のコピー先を示すスクリーンショット。

  • [圧縮の種類]: ドロップダウン リストで、ORC ファイルの書き込みに使用する圧縮コーデックを選びます。 [なし][zlib] または [snappy] のいずれかを選択できます。

[コピー先] タブの [詳細] 設定に、ORC 形式に関係する次のプロパティが表示されます。

  • [ファイルあたりの最大行数]: データをフォルダーに書き込むとき、複数のファイルに書き込み、ファイルあたりの最大行を指定することを選択できます。 ファイルごとに書き込む最大行数を指定します。
  • [ファイル名プレフィックス]: [ファイルあたりの最大行数] が構成されている場合に適用されます。 データを複数のファイルに書き込むとき、ファイル名のプレフィックスを指定します。結果的に <fileNamePrefix>_00000.<fileExtension> のパターンになります。 指定されていない場合、ファイル名プレフィックスは自動生成されます。 このプロパティは、ソースがファイルベース ストアかパーティション オプション対応データ ストアの場合、適用されません。

表形式の概要

ソースとしての ORC

ORC 形式を使う場合、Copy アクティビティの [ソース] セクションでは、次のプロパティがサポートされます。

名前 Description Value 必須 JSON スクリプト プロパティ
ファイル形式 使用するファイル形式。 ORC はい 型 ("datasetSettings の下"):
Orc
[圧縮の種類] ORC ファイルの読み取りに使用される圧縮コーデック。 なし
zlib
snappy
いいえ orcCompressionCodec:
なし
zlib
snappy

コピー先としての ORC

ORC 形式を使用する場合、コピー アクティビティの [コピー先] セクションでは、次のプロパティがサポートされます。

名前 Description Value 必須 JSON スクリプト プロパティ
ファイル形式 使用するファイル形式。 ORC はい 型 ("datasetSettings の下"):
Orc
[圧縮の種類] ORC ファイルの書き込みに使用される圧縮コーデック。 なし
zlib
snappy
いいえ orcCompressionCodec:
なし
zlib
snappy
ファイルあたりの最大行数 データをフォルダーに書き込むとき、複数のファイルに書き込み、ファイルあたりの最大行を指定することを選択できます。 ファイルごとに書き込む最大行数を指定します。 <ファイルあたりの最大行数> いいえ maxRowsPerFile
ファイル名プレフィックス [ファイルあたりの最大行数] が構成されている場合に適用されます。 データを複数のファイルに書き込むとき、ファイル名のプレフィックスを指定します。結果的に <fileNamePrefix>_00000.<fileExtension> のパターンになります。 指定されていない場合、ファイル名プレフィックスは自動生成されます。 このプロパティは、ソースがファイルベース ストアかパーティション オプション対応データ ストアの場合、適用されません。 <実際のファイル名のプレフィックス> いいえ fileNamePrefix