Databricks を使用したデータ エンジニアリング
Databricks には、データ サイエンティスト、エンジニア、アナリスト間のコラボレーションのための堅牢な環境を含む、豊富なデータ エンジニアリング機能のセットが用意されています。 中央には、データをおよびtransformパイプラインがあります。 最も効率的なパイプラインの簡単なエンジニアリングを可能にするために、Databricks は構造化ストリーミングテーブルとデルタ ライブ テーブルを提供します。 「Azure Databricks でのストリーミングデルタ ライブ テーブルとはを参照してください。
Structured Streaming と Delta Live Tables によって提供されるデータの増分ストリーム処理がデータ パイプラインに最適なオプションである理由の概要については、「 なぜ増分ストリーム処理?を参照してください。
その他のデータ エンジニアリング リソース
Databricks には、多くの追加シナリオでデータ エンジニアリング タスク用の機能が用意されています。
- Databricks ノートブック はコラボレーションに人気のあるツールです。
- Databricks ジョブを使用してワークフローをスケジュールおよび調整します。
- 機械学習ソリューション 設計する場合は Databricks Mosaic AI を参照してください。
Note
主に SQL クエリと BI ツールを使用する場合は、 Databricks SQLを参照してください。
チュートリアルの概要と入門用の informaton については、「 Azure Databricks の概要 と Azure Databricks とはを参照してください。
Name | 使用目的 |
---|---|
Delta Live Tables | Databricks Delta Live Tables を使用してインジェストと変換用のデータ パイプラインを構築する方法について説明します。 |
構造化ストリーミング | Databricks での構造化ストリーミングを利用した、ストリーミング、増分、リアルタイムのワークロードについて説明します。 |