Apache Spark のガイドライン

この記事では、Azure HDInsight で Apache Spark を使用する際のさまざまなガイドラインを紹介します。

Spark ジョブを実行または送信する方法

オプション ドキュメント​
Visual Studio Code Spark & Hive Tools for Visual Studio Code を使用する
Jupyter Notebooks チュートリアル:Azure HDInsight での Apache Spark クラスターへのデータの読み込みとクエリの実行
IntelliJ チュートリアル:Azure Toolkit for IntelliJ を使用して HDInsight クラスター向けの Apache Spark アプリケーションを作成する
IntelliJ チュートリアル:IntelliJ を使用した HDInsight での Apache Spark の Scala Maven アプリケーションの作成
Zeppelin Notebook Azure HDInsight 上の Apache Spark クラスターで Apache Zeppelin Notebook を使用する
Livy を使用したリモート ジョブの送信 Apache Spark REST API を使用してリモート ジョブを HDInsight Spark クラスターに送信する
Apache Oozie Oozie は Hadoop ジョブを管理するワークフローおよび調整システムです。
Apache Livy Livy を使用すると、対話型の Spark シェルを実行したり、Spark で実行されるバッチ ジョブを送信したりすることができます。
Apache Spark 向け Azure Data Factory Data Factory パイプラインの Spark アクティビティでは、独自のまたはオンデマンドの HDInsight クラスターで Spark プログラムを実行します。
Apache Hive 向け Azure Data Factory Data Factory パイプラインの HDInsight Hive アクティビティでは、独自またはオンデマンドの HDInsight クラスターで Hive クエリを実行します。

Spark ジョブを監視およびデバッグする方法

オプション Documents
Azure Toolkit for IntelliJ Azure Toolkit for IntelliJ を使用した失敗した Spark ジョブのデバッグ (プレビュー)
SSH 経由の Azure Toolkit for IntelliJ ローカルまたはリモートから SSH 経由で Azure Toolkit for IntelliJ を使用して HDInsight クラスター上の Apache Spark アプリケーションをデバッグする
VPN 経由の Azure Toolkit for IntelliJ Azure Toolkit for IntelliJ を使用して HDInsight 上で VPN を介して Apache Spark アプリケーションをリモートでデバッグする
Apache Spark History Server のジョブ グラフ 拡張された Apache Spark History Server を使用して Apache Spark アプリケーションのデバッグと診断を行う

Spark ジョブの実行効率を高める方法

オプション Documents
IO キャッシュ Azure HDInsight IO キャッシュ (プレビュー) を使用して Apache Spark のワークロードのパフォーマンスを改善する
構成オプション Apache Spark ジョブを最適化する

他の Azure サービスに接続する方法

オプション Documents
HDInsight 上の Apache Hive Hive Warehouse Connector を使用して Apache Spark と Apache Hive を統合する
HDInsight での Apache HBase Apache Spark を使用した Apache HBase データの読み取り/書き込み
HDInsight での Apache Kafka チュートリアル:HDInsight で Apache Kafka による Apache Spark 構造化ストリーミングを使用する
Azure Cosmos DB Azure Synapse Link for Azure Cosmos DB

ストレージ オプションについて

オプション Documents
Azure Data Lake Storage Gen2 Azure HDInsight クラスターで Azure Data Lake Storage Gen2 を使用する
Azure Blob Storage Azure HDInsight クラスターで Azure Storage を使用する

次のステップ