CSV パーサー インジェストの概念

CSV (コンマ区切り値) ファイルは、テーブル構造形式でデータを保存するために使用されるコンマ区切りテキスト ファイルです。

CSV パーサー DAG を使用すると、お客様は、カスタム スキーマ (OSDU® Well Known Schema (WKS) と一致 しないスキーマ) に基づいて、Microsoft Azure Data Manager for Energy インスタンスにデータを読み込むことができます。 お客様は、データを読み込む前に、スキーマ サービスを使用してカスタム スキーマを作成して登録する必要があります。

CSV パーサー DAG では、データの読み込みに対する ELT (抽出、読み込み、変換) アプローチを実装します。つまり、データは最初に CSV 形式でソース システムから抽出され、Azure Data Manager for Energy インスタンスに読み込まれます。 その後、マッピング サービスを使用して OSDU® Well Known Schema に変換できます。

CSV インジェストの動作

CSV パーサー DAG を使用すると、お客様は Microsoft Azure Data Manager for Energy インスタンスに CSV データを読み込むことができます。 CSV ファイルの各行を解析し、ストレージ メタデータ レコードを作成します。 CSV データが登録済みのカスタム スキーマに準拠していることを確認するために schema validation を実行します。 スキーマ データ型の定義に基づいて列に対して自動的に type coercion が実行します。 ソース、エンティティ型、およびデータ内の自然なキーを連結して形成された Base64 でエンコードされた文字列を組み合わせることで、CSV レコードの各行に対して unique id を生成します。 ユニット サービスを使って、宣言された基準座標系情報を適切で永続化可能な参照に変換し、unit conversion を実行します。 スキーマに存在する参照フレーム (FoR) 情報に基づいて、空間認識列に対して CRS conversion を実行します。 ソース スキーマで宣言された relationships メタデータを作成します。 最後に、ストレージ サービスを使用するメタデータ レコードを persists します。

CSV パーサー インジェストのコンポーネント

CSV パーサー DAG ワークフローは、次のサービスで構成されます。

  • ファイル サービスは、Azure Data Manager for Energy インスタンス内のファイルの管理を容易にします。 これにより、ユーザーはデータ プラットフォームからファイルを安全にアップロード、検出、ダウンロードできます。
  • スキーマ サービスは、Azure Data Manager for Energy インスタンスでのスキーマの管理を容易にします。 これにより、ユーザーはデータ プラットフォーム内のスキーマを作成、フェッチ、検索できます。
  • ストレージ サービスは、データ プラットフォームに取り込まれたドメイン エンティティのメタデータ情報の格納を容易にします。 また、ダウンストリーム サービスが取り込まれたメタデータ レコードに対して操作を実行できるようにするストレージ レコード変更イベントも発生させます。
  • ユニット サービスは、ユニットの管理と変換を容易にします
  • ワークフロー サービスは、Azure Data Manager for Energy インスタンスでのワークフローの管理を容易にします。 これは、エアフロー オーケストレーション エンジン上のラッパー サービスです。

CSV インジェスト コンポーネントの図

CSV インジェスト コンポーネントの図を示すスクリーンショット。

CSV パーサー インジェストのワークフロー

CSV パーサー DAG ワークフローを実行するには、有効な認可トークンと、検索、ストレージ、スキーマ、ファイル サービス、エンタイトルメント、法的、およびワークフローのサービスへの適切なアクセス権がユーザーに必要です。

次のワークフロー図は、CSV パーサー DAG ワークフローを示しています。CSV インジェスト シーケンスの図を示すスクリーンショット。

CSV パーサー DAG ワークフローを実行するには、ユーザーが最初にワークフロー サービスを使用してスキーマを作成して登録する必要があります。 スキーマが作成されると、ユーザーはファイル サービスを使用して CSV ファイルを Microsoft Azure Data Manager for Energy インスタンスにアップロードし、ファイル ジェネリックの種類のストレージ レコードも作成します。 その後、ファイル サービスはユーザーにファイル ID を提供します。これは、ワークフロー サービスを使用して CSV パーサー ワークフローをトリガーするときに使用されます。 ワークフロー サービスは実行 ID を提供します。この ID は、ユーザーが CSV パーサー ワークフローの実行の状態を追跡するために使用できます。

OSDU® は The Open Group の商標です。

次のステップ

CSV パーサーのチュートリアルに進み、CSV パーサー インジェストを実行する方法について学習します