データサイエンスのエンドツーエンドシナリオ: 概要とアーキテクチャ

[アーティクル]
03/08/2024

この一連のチュートリアルでは、Fabric データサイエンスエクスペリエンスにおけるエンドツーエンドシナリオのサンプルを示します。データインジェスト、クレンジング、準備から機械学習モデルのトレーニングや分析情報の生成までの各ステップを実装した後に、Power BI などの視覚化ツールを使用してそれらの分析情報を使用します。

Microsoft Fabric を初めて使用する場合は、「Microsoft Fabric とは?」を参照してください。

はじめに

データサイエンスプロジェクトのライフサイクルには通常、(多くの場合、反復的に) 次のステップが含まれます。

ビジネスの把握
データの取得
データの探索、クレンジング、準備、視覚化
モデルのトレーニングと実験の追跡
モデルのスコアリングと分析情報の生成。

各ステージの目標と成功基準は、共同作業、データ共有、ドキュメントによって異なります。 Fabric データサイエンスエクスペリエンスは、シームレスな方法での共同作業、データの取得、共有、および使用を可能にする複数のネイティブ構築された機能で構成されています。

以下のチュートリアルで、あなたは銀行の 1 万人の顧客のチャーン状態を含むデータセットを探索、クリーン、変換するタスクを与えられたデータサイエンティストの役割を担います。次に、機械学習モデルを構築して、離れる可能性が高い銀行の顧客を予測します。

次のアクティビティの実行を学習します。

データサイエンスシナリオには Fabric ノートブックを使用します。
Apache Spark を使用して Fabric レイクハウスにデータを取り込みます。
レイクハウスのデルタテーブルから既存のデータを読み込みます。
Apache Spark と Python ベースのツールを使用してデータをクリーンして変換します。
さまざまな機械学習モデルをトレーニングするための実験と実行を作成します。
MLflow と Fabric UI を使用して、トレーニング済みのモデルを登録して追跡します。
大規模にスコアリングを実行し、予測と推論の結果をレイクハウスに保存します。
DirectLake を使用して Power BI で予測を視覚化します。

アーキテクチャ

このチュートリアルシリーズでは、以下を含む簡略化されたエンドツーエンドのデータサイエンスシナリオを紹介します。

データサイエンスシナリオのさまざまなコンポーネント

データソース - Fabric を使用すると、Azure Data Services、他のクラウドプラットフォーム、およびオンプレミスのデータソースに簡単かつ迅速に接続してデータを取り込むことができます。 Fabric Notebooks を使用すると、組み込みのレイクハウス、Data Warehouse、セマンティックモデル、およびさまざまな Apache Spark と Python でサポートされているカスタムのデータソースからデータを取り込むことができます。このチュートリアルシリーズでは、レイクハウスからのデータの取り込みと読み込みに焦点を当てます。

探索、クリーン、準備 - Fabric のデータサイエンスエクスペリエンスは、Spark の組み込みエクスペリエンスと、Data Wrangler や SemPy ライブラリなどの Python ベースのツールを使用することによる、データのクレンジング、変換、探索、特徴量化をサポートしています。このチュートリアルでは、Python ライブラリ seaborn を使用したデータ探索と、Apache Spark を使用したデータのクレンジングと準備を紹介します。

モデルと実験 - Fabric を使用すると、実験の追跡とモデルの登録/デプロイのための MLflow とシームレスに統合された組み込みの実験とモデル項目を使用することで、機械学習モデルのトレーニング、評価、スコアリングを行うことができます。 Fabric は、ビジネス上の分析情報を取得して共有するための大規模なモデル予測用の機能 (PREDICT) も特徴としています。

ストレージ - Fabric は Delta Lake 上で標準化されています。つまり、Fabric のすべてのエンジンは、レイクハウスに保存されている同じデータセットとやり取りできます。このストレージレイヤーを使用すると、ファイルベースストレージと表形式の両方をサポートする構造化データと非構造化データの両方を保存できます。保存されているデータセットとファイルは、ノートブックやパイプラインなどのすべての Fabric エクスペリエンスアイテムを介して簡単にアクセスできます。

解析と分析情報の公開 - レイクハウスからのデータは、レポートと視覚化のために、業界をリードするビジネスインテリジェンスツールである Power BI で使用できます。レイクハウス内で永続化されたデータは、Spark または Python ネイティブ視覚化ライブラリ (matplotlib、seaborn、plotly など) を使用してノートブックで視覚化することもできます。データは、セマンティックデータモデル、依存関係とその違反、分類と回帰のユースケースのために、組み込みのリッチでタスク固有の視覚化をサポートする SemPy ライブラリを使用して視覚化することもできます。

次のステップ

データサイエンスチュートリアル用にシステムを準備する

次の方法で共有

データサイエンスのエンドツーエンドシナリオ: 概要とアーキテクチャ

はじめに

アーキテクチャ

データサイエンスシナリオのさまざまなコンポーネント

次のステップ

フィードバック

その他のリソース

次の方法で共有

データ サイエンスのエンドツーエンド シナリオ: 概要とアーキテクチャ

はじめに

アーキテクチャ

データ サイエンス シナリオのさまざまなコンポーネント

次のステップ

フィードバック

その他のリソース

データサイエンスのエンドツーエンドシナリオ: 概要とアーキテクチャ

データサイエンスシナリオのさまざまなコンポーネント