Apache Spark のガイドライン
この記事では、Azure HDInsight で Apache Spark を使用する際のさまざまなガイドラインを紹介します。
Spark ジョブを実行または送信する方法
オプション | ドキュメント |
---|---|
Visual Studio Code | Spark & Hive Tools for Visual Studio Code を使用する |
Jupyter Notebooks | チュートリアル:Azure HDInsight での Apache Spark クラスターへのデータの読み込みとクエリの実行 |
IntelliJ | チュートリアル:Azure Toolkit for IntelliJ を使用して HDInsight クラスター向けの Apache Spark アプリケーションを作成する |
IntelliJ | チュートリアル:IntelliJ を使用した HDInsight での Apache Spark の Scala Maven アプリケーションの作成 |
Zeppelin Notebook | Azure HDInsight 上の Apache Spark クラスターで Apache Zeppelin Notebook を使用する |
Livy を使用したリモート ジョブの送信 | Apache Spark REST API を使用してリモート ジョブを HDInsight Spark クラスターに送信する |
Apache Oozie | Oozie は Hadoop ジョブを管理するワークフローおよび調整システムです。 |
Apache Livy | Livy を使用すると、対話型の Spark シェルを実行したり、Spark で実行されるバッチ ジョブを送信したりすることができます。 |
Apache Spark 向け Azure Data Factory | Data Factory パイプラインの Spark アクティビティでは、独自のまたはオンデマンドの HDInsight クラスターで Spark プログラムを実行します。 |
Apache Hive 向け Azure Data Factory | Data Factory パイプラインの HDInsight Hive アクティビティでは、独自またはオンデマンドの HDInsight クラスターで Hive クエリを実行します。 |
Spark ジョブを監視およびデバッグする方法
オプション | Documents |
---|---|
Azure Toolkit for IntelliJ | Azure Toolkit for IntelliJ を使用した失敗した Spark ジョブのデバッグ (プレビュー) |
SSH 経由の Azure Toolkit for IntelliJ | ローカルまたはリモートから SSH 経由で Azure Toolkit for IntelliJ を使用して HDInsight クラスター上の Apache Spark アプリケーションをデバッグする |
VPN 経由の Azure Toolkit for IntelliJ | Azure Toolkit for IntelliJ を使用して HDInsight 上で VPN を介して Apache Spark アプリケーションをリモートでデバッグする |
Apache Spark History Server のジョブ グラフ | 拡張された Apache Spark History Server を使用して Apache Spark アプリケーションのデバッグと診断を行う |
Spark ジョブの実行効率を高める方法
オプション | Documents |
---|---|
IO キャッシュ | Azure HDInsight IO キャッシュ (プレビュー) を使用して Apache Spark のワークロードのパフォーマンスを改善する |
構成オプション | Apache Spark ジョブを最適化する |
他の Azure サービスに接続する方法
オプション | Documents |
---|---|
HDInsight 上の Apache Hive | Hive Warehouse Connector を使用して Apache Spark と Apache Hive を統合する |
HDInsight での Apache HBase | Apache Spark を使用した Apache HBase データの読み取り/書き込み |
HDInsight での Apache Kafka | チュートリアル:HDInsight で Apache Kafka による Apache Spark 構造化ストリーミングを使用する |
Azure Cosmos DB | Azure Synapse Link for Azure Cosmos DB |
ストレージ オプションについて
オプション | Documents |
---|---|
Azure Data Lake Storage Gen2 | Azure HDInsight クラスターで Azure Data Lake Storage Gen2 を使用する |
Azure Blob Storage | Azure HDInsight クラスターで Azure Storage を使用する |