Использование модели глубокого обучения Microsoft Cognitive Toolkit в кластере Azure HDInsight Spark

Ниже перечислены действия, которые вы выполните в этой статье.

  1. запуск пользовательского сценария для установки Microsoft Cognitive Toolkit в кластере Azure HDInsight Spark;

  2. передача Jupyter Notebook в кластер Apache Spark для применения обученной модели глубокого обучения Microsoft Cognitive Toolkit к файлам в учетной записи хранилища BLOB-объектов Azure с помощью API Python для Spark (PySpark).

Необходимые компоненты

Как реализуется это решение?

Для описания этого решения используются данная статья и элемент Jupyter Notebook, загружаемый в рамках данной статьи. Ниже перечислены действия, которые вы выполните в этой статье.

  • Запуск действия сценария в кластере HDInsight Spark для установки Microsoft Cognitive Toolkit и пакетов Python.
  • Передача элемента Jupyter Notebook, запускающего решение в кластере HDInsight Spark.

Перечисленные ниже оставшиеся шаги приведены в описании Jupyter Notebook.

  • Загрузка примеров изображений в устойчивый распределенный набор данных Spark (RDD).
    • Загрузка модулей и определение предустановок.
    • Скачивание набора данных локально в кластер Spark.
    • Преобразование набора данных в RDD.
  • Оценка изображений с помощью обученной модели Cognitive Toolkit.
    • Скачивание обученной модели Cognitive Toolkit в кластер Spark.
    • Определение функций, используемых рабочими узлами.
    • Оценка изображений на рабочих узлах.
    • Анализ точности модели.

Установка Microsoft Cognitive Toolkit

Microsoft Cognitive Toolkit в кластере Spark можно установить с помощью действия сценария. Действие сценария использует пользовательские скрипты для установки компонентов в кластере, которые по умолчанию недоступны. Можно использовать пользовательский сценарий с портала Azure, воспользовавшись пакетом SDK .NET для HDInsight или Azure PowerShell. Этот сценарий можно также использовать для установки данного набора средств при создании кластера или после его подготовки и запуска.

В этой статье мы используем портал для установки набора средств после того, как кластер был создан. Другие способы выполнения пользовательского сценария описаны в разделе Настройка кластеров HDInsight под управлением Linux с помощью действия сценария.

Использование портала Azure

Инструкции по использованию портала Azure для выполнения действия сценария см. в статье Настройка кластеров HDInsight под управлением Linux с помощью действия сценария. Обязательно укажите приведенные ниже данные для установки Microsoft Cognitive Toolkit. Используйте следующие значения для действия сценария.

Свойство Значение
Тип скрипта - Custom
Имя. Установка MCT
URI bash-скрипта https://raw.githubusercontent.com/Azure-Samples/hdinsight-pyspark-cntk-integration/master/cntk-install.sh
Типы узлов: Головной, рабочий
Параметры нет

Передача Jupyter Notebook в кластер Azure HDInsight Spark

Чтобы использовать Microsoft Cognitive Toolkit с кластером Azure HDInsight Spark, необходимо загрузить Jupyter Notebook CNTK_model_scoring_on_Spark_walkthrough.ipynb в кластер Azure HDInsight Spark. Эта записная книжка доступна на GitHub по адресу https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration.

  1. Скачайте и распакуйте архив https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration.

  2. В веб-браузере перейдите на страницу https://CLUSTERNAME.azurehdinsight.net/jupyter, где CLUSTERNAME — это имя вашего кластера.

  3. В Jupyter Notebook выберите Отправить в правом верхнем углу, а затем перейдите к загрузкам и выберите файл CNTK_model_scoring_on_Spark_walkthrough.ipynb.

    Upload Jupyter Notebook to Azure HDInsight Spark cluster.

  4. Щелкните Передать еще раз.

  5. После передачи элемента Notebook щелкните его имя, а затем следуйте отображаемым в Notebook указаниям по загрузке набора данных и выполните задания в статье.

См. также

Сценарии

Создание и запуск приложений

Инструменты и расширения

Управление ресурсами