Azure Data Factory とは何ですか。
まずは、Azure Data Factory の概要を確認しましょう。 これは、データを整理してビジネス分析情報を作成するのに適した選択肢であるかどうかを判断するのに役立つはずです。
Azure Data Factory はクラウドベースの ETL およびデータ統合サービスであり、以下を行うデータ駆動型ワークフローを作成できます。
- データ移動を調整する。
- 大規模なデータを変換する。
Note
"データ駆動型ワークフロー" は、パイプラインとも呼ばれます。
Azure Data Factory を使用すると、生データを意味のあるデータ ストアとデータ レイクに再構成できます。 これにより、ビジネス上の意思決定をより的確に行うことができます。
データ分析とは
データ分析は、生データを収集して調査し、そこから結論を引き出すプロセスです。 これは、データが複数の場所 (ホストされたデータベースやオンプレミスの場所など) にある場合は、難しいことがあります。
ヒント
"生データ" とは、ソースから収集され、処理されていないデータのことです。 "未整理データ" と呼ばれることもあります。
Azure には、組織のデータ分析を支援するために実装できるテクノロジが複数用意されています。 これには以下が含まれます。
- Azure Synapse Analytics
- Azure Blob Storage
- Azure Data Lake Storage
- Azure Data Lake Analytics
- Azure Analysis Services
- Azure HDInsight
- Azure Databricks
- Azure Machine Learning
必要に応じて、これらのサービスの一部またはすべてを使用して、組織のデータを分析できます。 しかしながら、これらのサービスはいずれもデータ統合に対応していません。 "データ統合" を行うと、複数のソースからデータを収集し、この結合データをデータ分析に適した場所に読み込むことができます。 必要であれば、この処理中にデータを変換することができます。 これらのタスクは手動で実行できますが、Azure Data Factory の使用を検討することができます。
Azure Data Factory の定義
Azure Data Factory は、次の表に示すように、2 つの特定のコミュニティのニーズに対応するように設計されたクラウドベースのデータ統合サービスです。
コミュニティ | コミュニティのニーズの説明 |
---|---|
ビッグ データ コミュニティ | このコミュニティは、大量の多様なデータを管理するテクノロジに依存します。 これらの方たちに向けて、Azure Data Factory には、クラウドにパイプラインを作成して実行する手段が用意されています。 これらのパイプラインから、クラウドとオンプレミスの両方のデータ サービスにアクセスできます。 これらのパイプラインは、通常、Azure Synapse Analytics、Azure BLOB、Azure Data Lake、Azure HDInsight、Azure Databricks、Azure Machine Learning などのテクノロジと連携して動作します。 |
リレーショナル データ ウェアハウス コミュニティ | このコミュニティは、通常、Microsoft SQL Server などのテクノロジに依存します。 SQL Server Integration Services (SSIS) は、SSIS パッケージの作成によく使用されます。 このコミュニティに向けて、Azure Data Factory には、Azure で SSIS パッケージを実行する機能が用意されており、クラウドとオンプレミスの両方のデータ サービスにアクセスできます。 |
Note
"パッケージ" は、Azure Data Factory パイプラインに似ています。 パッケージごとに、データを抽出、読み込み、変換、またはその他の方法で処理するプロセスを定義します。
主なポイントは、Azure Data Factory が、データ統合のための単一のクラウド サービスであるということです。 あらゆるデータ統合に利用できる単一のツール セットと共通の管理インターフェイスが用意されており、データ ソースが次のどこにあっても、すべてサポートされます。
- Azure
- オンプレミス
- サードパーティのパブリック クラウド プラットフォーム
データ分析に役立つ Azure Data Factory
Azure Data Factory を使用して、以下を実行できます。
複雑な ETL プロセスを構築します。 これらのプロセスでは、データ フローまたは次のようなコンピューティング サービスのいずれかを使用して、データを視覚的に変換できます。
- Azure HDInsight Hadoop
- Azure Databricks
- Azure SQL データベース
この変換したデータをデータ ストアに公開して、ビジネス インテリジェンス アプリで使用できるようにします。
次の図では、外部データ ソースが Azure Data Factory に接続されています。 データの取り込みにストレージ BLOB が使用され、ストレージとして Azure Synapse Analytics が使用されています。 これらの要素によって、オーケストレーションが行われます。 また、分析および視覚化コンポーネントの Azure Analysis Service と Power BI も Azure Data Factory に接続されています。
ヒント
Azure Data Factory には、90 個を超えるメンテナンス不要の組み込みコネクタが用意されています。