Использование модели глубокого обучения Microsoft Cognitive Toolkit в кластере Azure HDInsight Spark

Статья
01/04/2024

Ниже перечислены действия, которые вы выполните в этой статье.

запуск пользовательского сценария для установки Microsoft Cognitive Toolkit в кластере Azure HDInsight Spark;
передача Jupyter Notebook в кластер Apache Spark для применения обученной модели глубокого обучения Microsoft Cognitive Toolkit к файлам в учетной записи хранилища BLOB-объектов Azure с помощью API Python для Spark (PySpark).

Необходимые компоненты

Кластер Apache Spark в HDInsight. Ознакомьтесь со статьей Краткое руководство. Создание кластера Apache Spark в HDInsight с помощью шаблона.
Опыт работы с записными книжками Jupyter и Spark в HDInsight. Дополнительные сведения см. в статье Руководство. Загрузка данных и выполнение запросов в кластере Apache Spark в Azure HDInsight.

Как реализуется это решение?

Для описания этого решения используются данная статья и элемент Jupyter Notebook, загружаемый в рамках данной статьи. Ниже перечислены действия, которые вы выполните в этой статье.

Запуск действия сценария в кластере HDInsight Spark для установки Microsoft Cognitive Toolkit и пакетов Python.
Передача элемента Jupyter Notebook, запускающего решение в кластере HDInsight Spark.

Перечисленные ниже оставшиеся шаги приведены в описании Jupyter Notebook.

Загрузка примеров изображений в устойчивый распределенный набор данных Spark (RDD).
- Загрузка модулей и определение предустановок.
- Скачивание набора данных локально в кластер Spark.
- Преобразование набора данных в RDD.
Оценка изображений с помощью обученной модели Cognitive Toolkit.
- Скачивание обученной модели Cognitive Toolkit в кластер Spark.
- Определение функций, используемых рабочими узлами.
- Оценка изображений на рабочих узлах.
- Анализ точности модели.

Установка Microsoft Cognitive Toolkit

Microsoft Cognitive Toolkit в кластере Spark можно установить с помощью действия сценария. Действие сценария использует пользовательские скрипты для установки компонентов в кластере, которые по умолчанию недоступны. Можно использовать пользовательский сценарий с портала Azure, воспользовавшись пакетом SDK .NET для HDInsight или Azure PowerShell. Этот сценарий можно также использовать для установки данного набора средств при создании кластера или после его подготовки и запуска.

В этой статье мы используем портал для установки набора средств после того, как кластер был создан. Другие способы выполнения пользовательского сценария описаны в разделе Настройка кластеров HDInsight под управлением Linux с помощью действия сценария.

Использование портала Azure

Инструкции по использованию портала Azure для выполнения действия сценария см. в статье Настройка кластеров HDInsight под управлением Linux с помощью действия сценария. Обязательно укажите приведенные ниже данные для установки Microsoft Cognitive Toolkit. Используйте следующие значения для действия сценария.

Свойство	Значение
Тип скрипта	- Custom
Имя.	Установка MCT
URI bash-скрипта	`https://raw.githubusercontent.com/Azure-Samples/hdinsight-pyspark-cntk-integration/master/cntk-install.sh`
Типы узлов:	Головной, рабочий
Параметры	нет

Передача Jupyter Notebook в кластер Azure HDInsight Spark

Чтобы использовать Microsoft Cognitive Toolkit с кластером Azure HDInsight Spark, необходимо загрузить Jupyter Notebook CNTK_model_scoring_on_Spark_walkthrough.ipynb в кластер Azure HDInsight Spark. Эта записная книжка доступна на GitHub по адресу https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration.

Скачайте и распакуйте архив https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration.
В веб-браузере перейдите на страницу https://CLUSTERNAME.azurehdinsight.net/jupyter, где CLUSTERNAME — это имя вашего кластера.
В Jupyter Notebook выберите Отправить в правом верхнем углу, а затем перейдите к загрузкам и выберите файл CNTK_model_scoring_on_Spark_walkthrough.ipynb.
Щелкните Передать еще раз.
После передачи элемента Notebook щелкните его имя, а затем следуйте отображаемым в Notebook указаниям по загрузке набора данных и выполните задания в статье.

Поделиться через

Использование модели глубокого обучения Microsoft Cognitive Toolkit в кластере Azure HDInsight Spark

Необходимые компоненты

Как реализуется это решение?

Установка Microsoft Cognitive Toolkit

Использование портала Azure

Передача Jupyter Notebook в кластер Azure HDInsight Spark

См. также

Сценарии

Создание и запуск приложений

Инструменты и расширения

Управление ресурсами

Обратная связь

Дополнительные ресурсы