Microsoft Fabric での Data Engineering とは

[アーティクル]
05/28/2024

Microsoft Fabric の Data Engineering により、ユーザーは、組織が大量のデータを収集、保存、処理、分析できるインフラストラクチャとシステムを設計、構築、保守できます。

Microsoft Fabric には、データがアクセスが容易で、適切に整理され、高品質であることを確認するためのさまざまな Data Engineering 機能が用意されています。 Data Engineering のホームページから、次のことが可能です。

レイクハウスを使用して、データを作成および管理する
レイクハウスにデータをコピーするためのパイプラインを設計する
Spark ジョブ定義を使って、バッチまたはストリーミングジョブを Spark クラスターに送信する
ノートブックを使用して、データインジェスト、準備、変換のコードを記述する

レイクハウス

レイクハウスは、さまざまなツールとフレームワークを使用してそのデータを処理および分析することで、組織が構造化データと非構造化データを 1 か所で格納および管理できるデータアーキテクチャです。これらのツールとフレームワークには、SQL ベースのクエリと分析のほか、機械学習やその他の高度な分析手法が含まれます。

Apache Spark ジョブ定義

Spark ジョブ定義は、Spark クラスターでジョブを実行する方法を定義する一連の命令です。これには、Spark アプリケーションの入力データソースと出力データソース、変換、構成設定などの情報が含まれます。 Spark ジョブ定義を使うと、バッチまたはストリーミングジョブの Spark クラスターへの送信、レイクハウスでホストされているデータに対する異なる変換ロジックの適用など、さまざまなことができます。

ノートブック

ノートブックはインタラクティブなコンピューティング環境であり、ユーザーはそれらを使用して、ライブコード、数式、視覚化、および説明テキストを含むドキュメントを作成して共有できます。ユーザーは Python、R、Scala など、各種プログラミング言語でコードを書いて実行できます。ノートブックは、データインジェスト、準備、解析、その他のデータ関連タスクに使用できます。

データパイプライン

データパイプラインは、データを収集して、処理し、未加工の形式から分析と意思決定に使用できる形式に変換する一連の手順です。それらは、信頼できるスケーラブルで効率的な方法でデータをソースからターゲットに移動する方法を提供するため、Data Engineering の重要なコンポーネントです。

Fabric 試用版にサインアップするときに、Microsoft Fabric の Data Engineering を無料で使用できます。 Microsoft Fabric 容量または Fabric 予約容量を購入することもできます

データエンジニアリングの使用開始:

レイクハウスの詳細については、「Microsoft Fabric のレイクハウスとは」を参照してください。
レイクハウスの使用を開始するには、「Microsoft Fabric でレイクハウスを作成する」を参照してください。
Apache Spark ジョブ定義の詳細については、「Apache Spark ジョブ定義とは」を参照してください。
Apache Spark ジョブ定義の使用を開始するには、「Fabric で Apache Spark ジョブ定義を作成する方法」を参照してください。
ノートブックの詳細については、ノートブックの作成および実行に関する記事を参照してください。
パイプラインのコピーアクティビティの使用を開始するには、「コピーアクティビティを使用してデータをコピーする方法」を参照してください。

次の方法で共有

Microsoft Fabric での Data Engineering とは

レイクハウス

Apache Spark ジョブ定義

ノートブック

データパイプライン

フィードバック

フィードバック

その他のリソース

次の方法で共有

Microsoft Fabric での Data Engineering とは

レイクハウス

Apache Spark ジョブ定義

ノートブック

データ パイプライン

関連するコンテンツ

フィードバック

フィードバック

その他のリソース

データパイプライン