Azure Cosmos DB
重要
このドキュメントは廃止され、更新されない可能性があります。 公式の Cosmos DB Spark コネクタ Github リポジトリを参照してください。
Azure Cosmos DB は、Microsoft のグローバルに分散されたマルチモデル データベースです。 Azure Cosmos DB では、Azure のリージョンをいくつでもまたぎ、スループットとストレージを柔軟かつ個別にスケーリングすることができます。 このサービスは包括的なサービス レベル アグリーメント (SLA) により、スループット、待機時間、可用性、一貫性が保証されています。 Azure Cosmos DB には、以下のデータ モデル用の API が、複数の言語での SDK と共に用意されていています。
- SQL API
- MongoDB API
- Cassandra API
- Graph (Gremlin) API
- テーブル API
この記事では、Azure Databricks を使用して Azure Cosmos DB に対するデータの読み取りと書き込みを行う方法について説明します。 Azure Cosmos DB の最新の詳細については、Apache Spark から Azure Cosmos DB へのコネクタを使用してビッグ データ分析を高速化することに関するページを参照してください。
リソース:
重要
このコネクタは、Azure Cosmos DB のコア (SQL) API をサポートします。 Cosmos DB for MongoDB API の場合は、MongoDB Spark コネクタを使用してください。 Cosmos DB Cassandra API の場合は、Cassandra Spark コネクタを使用してください。
必要なライブラリを作成してアタッチする
- 実行している Apache Spark のバージョン用の 最新の azure-cosmosdb-spark ライブラリをダウンロードします。
- ダウンロードした JAR ファイルを Databricks にアップロードします。 ライブラリをご参照ください。
- Databricks クラスターに、アップロードしたライブラリをインストールします。