Azure Databricks を使ってみる

完了

Azure Databricks は、データ エンジニアリング、機械学習、分析のための統合環境を提供するクラウドベースのデータ分析プラットフォームです。 Azure Databricks は、Apache Spark の作成の中心になった Databricks との共同で設計されました。 Azure Databricks は、高速で使いやすくコラボレーションに対応した Apache Spark ベースの分析サービスを提供します。 このプラットフォームは、Azure の他のサービスと深く統合し、セキュリティ、パフォーマンス、スケーラビリティが強化されたシームレスなエクスペリエンスをユーザーに提供します。 データ準備、機械学習、データ サイエンス ワークフローなどのデータ駆動型タスクを可能にするこのサービスは、ビッグ データの力を活用しようとしている組織のための汎用性の高いツールになります。

Azure Databricks の主な機能には、Microsoft Entra ID とのネイティブな統合と、Azure Storage、Azure Data Lake Storage、Azure Cosmos DB などの他の Azure サービスを使用する機能が含まれます。 このプラットフォームには、データ サイエンティスト、データ エンジニア、ビジネス アナリストの間のコラボレーションを促進する対話型ワークスペースも用意されています。 このコラボレーション環境では、Python、Scala、R、SQL などのさまざまなプログラミング言語がサポートされており、チームはデータ モデルを効率的に開発して反復できます。 さらに、Azure Databricks は簡単にスケーリングするように設計されており、機械学習アルゴリズムのコンピューティングの需要と大規模なデータ セットの処理ニーズの両方を管理します。

Azure Databricks ワークスペースの作成

Azure Databricks を使用するには、ご利用の Azure サブスクリプションに Azure Databricks ワークスペースを作成する必要があります。 そのためには、次の操作を行います。

  • Azure portal ユーザー インターフェイスの使用
  • Azure Resource Manager (ARM) または Bicep テンプレートの使用
  • New-AzDatabricksWorkspace Azure PowerShell コマンドレットの使用
  • az databricks workspace create Azure コマンド ライン インターフェイス (CLI) コマンドの使用

ワークスペースを作成するときは、次のいずれかの価格レベルを指定する必要があります。

  • Standard - Microsoft Entra ID 統合を使用するコア Apache Spark 機能。
  • Premium - ロールベースのアクセス制御とその他のエンタープライズ レベルの機能。
  • 試用版 - Premium レベルのワークスペースの 14 日間の無料試用版

Azure Databricks

Azure Databricks ポータルの使用

Azure Databricks ワークスペースをプロビジョニングしたら、Azure Databricks ポータルを使ってデータとコンピューティング リソースを操作できます。 Azure Databricks ポータルは、ワークスペース リソース (Spark クラスターなど) を作成および管理したり、ノートブックやクエリを使用してファイルやテーブル内のデータを操作したりできる、Web ベースのユーザー インターフェイスです。

Azure Databricks ポータル