Azure Databricks を使用して機械学習ソリューションを実装する

中級
データ サイエンティスト
Azure Databricks

Azure Databricks は、データ分析と機械学習のためのクラウド規模のプラットフォームです。 データ サイエンティストと機械学習エンジニアは、Azure Databricks を使用して大規模な機械学習ソリューションを実装できます。

前提条件

このラーニング パスでは、Python と Scikit-Learn、PyTorch、TensorFlow などの一般的なオープンソース フレームワークを使用して、データの探索や機械学習モデルのトレーニングを行った経験があることを前提としています。 このラーニング パスを開始する前に、「機械学習モデルを作成する」のラーニング パスを完了することを検討してください。

このラーニング パス内のモジュール

Azure Databricks は、Apache Spark を使用したデータ分析のためのスケーラブルなプラットフォームを提供するクラウド サービスです。

Azure Databricks は Apache Spark 上に構築されており、データ エンジニアやアナリストは Spark ジョブを実行して、大規模なデータの変換、分析、視覚化を行うことができます。

機械学習には、データを使用した予測モデルのトレーニングが伴います。 Azure Databricks は、モデルのトレーニングに使用できる、一般的に使用される複数の機械学習フレームワークをサポートしています。

MLflow は、Azure Databricks でネイティブにサポートされている機械学習ライフサイクルを管理するためのオープンソース プラットフォームです。

ハイパーパラメーターのチューニングは、機械学習に不可欠な部分です。 Azure Databricks では、Hyperopt ライブラリを使用してハイパーパラメーターを自動的に最適化できます。

Azure Databricks の AutoML を使うと、データに対して効果的な機械学習モデルを構築するプロセスが簡素化されます。

ディープ ラーニングでは、ニューラル ネットワークを使用することで、複雑な予測、コンピューター ビジョン、自然言語処理、およびその他の AI ワークロードに対応できるように、非常に効果的に機械学習モデルをトレーニングします。

機械学習により、データドリブンの意思決定と自動化が可能になりますが、リアルタイムの分析情報を得るためにモデルを運用環境にデプロイすることは困難です。 Azure Databricks には、機械学習モデルを大規模に構築し、トレーニングし、デプロイするための統合プラットフォームが用意されているので、このプロセスを簡略化し、データ科学者とエンジニア間のコラボレーションを促進することができます。