ビッグデータを処理するための各ステージを理解する

5 分

データレイクは、さまざまなビッグデータアーキテクチャにおいて基本的な役割を果たします。これらのアーキテクチャでは、次を作成します。

エンタープライズデータウェアハウス。
ビッグデータに対する高度な分析。
リアルタイムの分析ソリューション。

ビッグデータを処理するソリューションには、すべてのアーキテクチャに共通で 4 つのステージがあります。

取り込む - インジェストフェーズでは、ソースデータを取得するために使用するテクノロジとプロセスを特定します。このデータには、データレイクに格納する必要がある、ファイル、ログ、その他の種類の非構造化データが含まれます。使用するテクノロジは、データが転送される頻度によって異なります。たとえば、データのバッチ移動には、Azure Synapse Analytics のパイプラインまたは Azure Data Factory のテクノロジを使用するのが最適な場合があります。データのリアルタイムでのインジェストには、Apache Kafka for HDInsight または Stream Analytics が適切な選択である場合があります。
ストア: ストアフェーズでは、取り込んだデータを配置する場所を特定します。 Azure Data Lake Storage Gen2 は、一般的に使われるビッグデータ処理テクノロジと互換性のある、セキュリティ保護されたスケーラブルなストレージソリューションを提供します。
準備してトレーニングする - 準備とトレーニングのフェーズでは、機械学習ソリューションのためのデータの準備およびモデルのトレーニングとスコアリングを実行するために使われるテクノロジを特定します。このフェーズで使われる一般的なテクノロジは、Azure Synapse Analytics、Azure Databricks、Azure HDInsight、Azure Machine Learning です。
モデル化と提供 - 最後に、モデル化と提供のフェーズには、ユーザーにデータを提供するテクノロジが含まれます。これらのテクノロジは、Microsoft Power BI などの視覚化ツールや、Azure Synapse Analytics などの分析データストアを含む場合があります。多くの場合、ビジネス要件に応じて、複数のテクノロジの組み合わせが使われます。

続行

ビッグ データを処理するための各ステージを理解する

フィードバック