Azure Cosmos DB

重要

このドキュメントは廃止され、更新されない可能性があります。 公式の Cosmos DB Spark コネクタ Github リポジトリを参照してください。

Azure Cosmos DB は、Microsoft のグローバルに分散されたマルチモデル データベースです。 Azure Cosmos DB では、Azure のリージョンをいくつでもまたぎ、スループットとストレージを柔軟かつ個別にスケーリングすることができます。 このサービスは包括的なサービス レベル アグリーメント (SLA) により、スループット、待機時間、可用性、一貫性が保証されています。 Azure Cosmos DB には、以下のデータ モデル用の API が、複数の言語での SDK と共に用意されていています。

  • SQL API
  • MongoDB API
  • Cassandra API
  • Graph (Gremlin) API
  • テーブル API

この記事では、Azure Databricks を使用して Azure Cosmos DB に対するデータの読み取りと書き込みを行う方法について説明します。 Azure Cosmos DB の最新の詳細については、Apache Spark から Azure Cosmos DB へのコネクタを使用してビッグ データ分析を高速化することに関するページを参照してください。

リソース:

重要

このコネクタは、Azure Cosmos DB のコア (SQL) API をサポートします。 Cosmos DB for MongoDB API の場合は、MongoDB Spark コネクタを使用してください。 Cosmos DB Cassandra API の場合は、Cassandra Spark コネクタを使用してください。

必要なライブラリを作成してアタッチする

  1. 実行している Apache Spark のバージョン用の 最新の azure-cosmosdb-spark ライブラリをダウンロードします。
  2. ダウンロードした JAR ファイルを Databricks にアップロードします。 ライブラリをご参照ください。
  3. Databricks クラスターに、アップロードしたライブラリをインストールします。