Рекомендации по использованию Apache Spark
В этой статье приводятся различные рекомендации по использованию Apache Spark в Azure HDInsight.
Как правильно запускать или отправлять задания Spark?
Вариант | Документы |
---|---|
Visual Studio Code | Использование средств Spark и Hive для Visual Studio Code |
Jupyter Notebook | Руководство. Загрузка данных и выполнение запросов в кластере Apache Spark в Azure HDInsight |
IntelliJ | Руководство. Использование Azure Toolkit for IntelliJ для создания приложений Apache Spark для кластера HDInsight |
IntelliJ | Руководство. Создание приложения Scala Maven для Apache Spark в HDInsight с помощью IntelliJ |
Записные книжки Zeppelin | Use Apache Zeppelin notebooks with Apache Spark cluster on Azure HDInsight (Использование записных книжек Apache Zeppelin с кластером Apache Spark в Azure HDInsight) |
Удаленная отправка заданий с помощью Livy | Удаленная отправка заданий в кластер HDInsight Spark с помощью Apache Spark REST API |
Apache Oozie | Oozie — это система рабочих процессов и координации, управляющая заданиями Hadoop. |
Apache Livy | Вы можете использовать Livy для выполнения интерактивных оболочек Spark или отправки пакетных заданий для запуска в кластере Spark. |
Фабрика данных Azure для Apache Spark | Действие Spark в конвейере Фабрики данных выполняет программу Spark в вашем кластере HDInsight или в кластере HDInsight по запросу. |
Фабрика данных Azure для Apache Hive | Действие Hive HDInsight в конвейере Фабрики данных выполняет запросы Hive к вашему кластеру HDInsight или кластеру HDInsight по запросу. |
Как выполнять мониторинг и отладку заданий Spark?
Вариант | Документы |
---|---|
Azure Toolkit for IntelliJ | Отладка сбоев в задании Spark с помощью Azure Toolkit for IntelliJ (предварительная версия) |
Azure Toolkit for IntelliJ (через SSH) | Удаленная или локальная отладка приложений Apache Spark в кластере HDInsight с помощью набора Azure Toolkit for IntelliJ через SSH |
Azure Toolkit for IntelliJ (через VPN) | Использование Набора средств Azure для IntelliJ для удаленной отладки приложений Apache Spark в HDInsight с помощью VPN |
Граф заданий на сервере журнала Apache Spark | Отладка и диагностика приложений Apache Spark с использованием расширенного сервера журнала Apache Spark |
Как повысить эффективность выполнения заданий Spark?
Вариант | Документы |
---|---|
Кэш операций ввода-вывода | Повышение производительности рабочих нагрузок Apache Spark с помощью кэша ввода-вывода Azure HDInsight (предварительная версия) |
Варианты конфигурации | Оптимизация заданий Apache Spark |
Как подключиться к другим службам Azure?
Вариант | Документы |
---|---|
Apache Hive в HDInsight; | Integrate Apache Spark and Apache Hive with the Hive Warehouse Connector (Интеграция Apache Spark и Apache Hive с помощью соединителя хранилища Hive) |
Apache HBase в HDInsight | Чтение и запись данных Apache HBase с помощью Apache Spark |
Apache Kafka в HDInsight | Руководство. Использование структурированной потоковой передачи Apache Spark с Apache Kafka в HDInsight |
Azure Cosmos DB | Сведения об Azure Synapse Link для Azure Cosmos DB |
Какие есть варианты хранилища?
Вариант | Документы |
---|---|
Azure Data Lake Storage 2-го поколения | Использование Azure Data Lake Storage Gen2 с кластерами Azure HDInsight |
Хранилище BLOB-объектов Azure | Использование службы хранилища Azure с кластерами Azure HDInsight |