データ サイエンスのエンドツーエンド シナリオ: 概要とアーキテクチャ

この一連のチュートリアルでは、Fabric データ サイエンス エクスペリエンスにおけるエンドツーエンド シナリオのサンプルを示します。 データ インジェスト、クレンジング、準備から機械学習モデルのトレーニングや分析情報の生成までの各ステップを実装した後に、Power BI などの視覚化ツールを使用してそれらの分析情報を使用します。

Microsoft Fabric を初めて使用する場合は、「Microsoft Fabric とは?」を参照してください。

はじめに

データ サイエンス プロジェクトのライフサイクルには通常、(多くの場合、反復的に) 次のステップが含まれます。

  • ビジネスの把握
  • データの取得
  • データの探索、クレンジング、準備、視覚化
  • モデルのトレーニングと実験の追跡
  • モデルのスコアリングと分析情報の生成。

各ステージの目標と成功基準は、共同作業、データ共有、ドキュメントによって異なります。 Fabric データ サイエンス エクスペリエンスは、シームレスな方法での共同作業、データの取得、共有、および使用を可能にする複数のネイティブ構築された機能で構成されています。

以下のチュートリアルで、あなたは銀行の 1 万人の顧客のチャーン状態を含むデータセットを探索、クリーン、変換するタスクを与えられたデータ サイエンティストの役割を担います。 次に、機械学習モデルを構築して、離れる可能性が高い銀行の顧客を予測します。

次のアクティビティの実行を学習します。

  1. データ サイエンス シナリオには Fabric ノートブックを使用します。
  2. Apache Spark を使用して Fabric レイクハウスにデータを取り込みます。
  3. レイクハウスのデルタ テーブルから既存のデータを読み込みます。
  4. Apache Spark と Python ベースのツールを使用してデータをクリーンして変換します。
  5. さまざまな機械学習モデルをトレーニングするための実験と実行を作成します。
  6. MLflow と Fabric UI を使用して、トレーニング済みのモデルを登録して追跡します。
  7. 大規模にスコアリングを実行し、予測と推論の結果をレイクハウスに保存します。
  8. DirectLake を使用して Power BI で予測を視覚化します。

アーキテクチャ

このチュートリアル シリーズでは、以下を含む簡略化されたエンドツーエンドのデータ サイエンス シナリオを紹介します。

  1. 外部データ ソースからのデータのインジェスト
  2. データの探索とクリーニング
  3. 機械学習モデルをトレーニングして登録する
  4. バッチ スコアリングを実行して予測を保存する
  5. Power BI で予測結果を視覚化する

Diagram of the Data science end-to-end scenario components.

データ サイエンス シナリオのさまざまなコンポーネント

データ ソース - Fabric を使用すると、Azure Data Services、他のクラウド プラットフォーム、およびオンプレミスのデータ ソースに簡単かつ迅速に接続してデータを取り込むことができます。 Fabric Notebooks を使用すると、組み込みのレイクハウス、Data Warehouse、セマンティック モデル、およびさまざまな Apache Spark と Python でサポートされているカスタムのデータ ソースからデータを取り込むことができます。 このチュートリアル シリーズでは、レイクハウスからのデータの取り込みと読み込みに焦点を当てます。

探索、クリーン、準備 - Fabric のデータ サイエンス エクスペリエンスは、Spark の組み込みエクスペリエンスと、Data Wrangler や SemPy ライブラリなどの Python ベースのツールを使用することによる、データのクレンジング、変換、探索、特徴量化をサポートしています。 このチュートリアルでは、Python ライブラリ seaborn を使用したデータ探索と、Apache Spark を使用したデータのクレンジングと準備を紹介します。

モデルと実験 - Fabric を使用すると、実験の追跡とモデルの登録/デプロイのための MLflow とシームレスに統合された組み込みの実験とモデル項目を使用することで、機械学習モデルのトレーニング、評価、スコアリングを行うことができます。 Fabric は、ビジネス上の分析情報を取得して共有するための大規模なモデル予測用の機能 (PREDICT) も特徴としています。

ストレージ - Fabric は Delta Lake 上で標準化されています。つまり、Fabric のすべてのエンジンは、レイクハウスに保存されている同じデータセットとやり取りできます。 このストレージ レイヤーを使用すると、ファイル ベース ストレージと表形式の両方をサポートする構造化データと非構造化データの両方を保存できます。 保存されているデータセットとファイルは、ノートブックやパイプラインなどのすべての Fabric エクスペリエンス アイテムを介して簡単にアクセスできます。

解析と分析情報の公開 - レイクハウスからのデータは、レポートと視覚化のために、業界をリードするビジネス インテリジェンス ツールである Power BI で使用できます。 レイクハウス内で永続化されたデータは、Spark または Python ネイティブ視覚化ライブラリ (matplotlibseabornplotly など) を使用してノートブックで視覚化することもできます。 データは、セマンティック データ モデル、依存関係とその違反、分類と回帰のユース ケースのために、組み込みのリッチでタスク固有の視覚化をサポートする SemPy ライブラリを使用して視覚化することもできます。

次のステップ