Použití modelu hlubokého učení v sadě Microsoft Cognitive Toolkit s clusterem Azure HDInsight Spark

V tomto článku provedete následující kroky.

  1. Spuštěním vlastního skriptu nainstalujte sadu Microsoft Cognitive Toolkit do clusteru Azure HDInsight Spark.

  2. Nahrajte poznámkový blok Jupyter do clusteru Apache Spark, abyste zjistili, jak použít natrénovaný model hloubkového učení Microsoft Cognitive Toolkit na soubory v účtu služby Azure Blob Storage pomocí rozhraní API Spark Pythonu (PySpark).

Požadavky

Jak tok tohoto řešení?

Toto řešení je rozdělené mezi tento článek a Jupyter Notebook, který nahrajete jako součást tohoto článku. V tomto článku provedete následující kroky:

  • Spuštěním akce skriptu v clusteru HDInsight Spark nainstalujte balíčky Microsoft Cognitive Toolkit a Pythonu.
  • Nahrajte poznámkový blok Jupyter, který spouští řešení do clusteru HDInsight Spark.

V poznámkovém bloku Jupyter jsou popsané následující zbývající kroky.

  • Načtěte ukázkové image do odolné distribuované datové sady Sparku nebo sady RDD.
    • Načtěte moduly a definujte přednastavení.
    • Stáhněte datovou sadu místně v clusteru Spark.
    • Převeďte datovou sadu na sadu RDD.
  • Nahodnocujte obrázky pomocí natrénovaného modelu Cognitive Toolkit.
    • Stáhněte natrénovaný model Cognitive Toolkit do clusteru Spark.
    • Definujte funkce, které mají být používány pracovními uzly.
    • Hodnocení obrázků na pracovních uzlech
    • Vyhodnocení přesnosti modelu

Instalace sady Microsoft Cognitive Toolkit

Sadu Microsoft Cognitive Toolkit můžete nainstalovat do clusteru Spark pomocí akce skriptu. Akce skriptu používá vlastní skripty k instalaci komponent do clusteru, které nejsou ve výchozím nastavení dostupné. Vlastní skript můžete použít z webu Azure Portal, pomocí sady HDInsight .NET SDK nebo pomocí Azure PowerShellu. Skript můžete použít také k instalaci sady nástrojů v rámci vytváření clusteru nebo po spuštění clusteru.

V tomto článku použijeme portál k instalaci sady nástrojů po vytvoření clusteru. Další způsoby spuštění vlastního skriptu najdete v tématu Přizpůsobení clusterů HDInsight pomocí akce skriptu.

Pomocí webu Azure Portal

Pokyny k použití webu Azure Portal ke spuštění akce skriptu najdete v tématu Přizpůsobení clusterů HDInsight pomocí akce skriptu. Ujistěte se, že pro instalaci sady Microsoft Cognitive Toolkit zadáte následující vstupy. Pro akci skriptu použijte následující hodnoty:

Vlastnost Hodnota
Typ skriptu -Vlastní
Název Instalace MCT
Identifikátor URI skriptu Bash https://raw.githubusercontent.com/Azure-Samples/hdinsight-pyspark-cntk-integration/master/cntk-install.sh
Typy uzlů: Vedoucí, Pracovník
Parametry Nic

Nahrání poznámkového bloku Jupyter do clusteru Azure HDInsight Spark

Pokud chcete používat sadu Microsoft Cognitive Toolkit s clusterem Azure HDInsight Spark, musíte do clusteru Azure HDInsight Spark načíst jupyter Notebook CNTK_model_scoring_on_Spark_walkthrough.ipynb . Tento poznámkový blok je k dispozici na GitHubu na adrese https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration.

  1. Stáhnout a rozbalit https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration.

  2. Ve webovém prohlížeči přejděte do https://CLUSTERNAME.azurehdinsight.net/jupyterumístění , kde CLUSTERNAME je název vašeho clusteru.

  3. V poznámkovém bloku Jupyter vyberte Nahrát v pravém horním rohu a pak přejděte na stažený soubor a vyberte soubor CNTK_model_scoring_on_Spark_walkthrough.ipynb.

    Upload Jupyter Notebook to Azure HDInsight Spark cluster.

  4. Znovu vyberte Nahrát .

  5. Po nahrání poznámkového bloku klikněte na název poznámkového bloku a postupujte podle pokynů v samotném poznámkovém bloku, jak načíst sadu dat a provést článek.

Viz také

Scénáře

Vytvoření a spouštění aplikací

Nástroje a rozšíření

Řízení zdrojů