Использование MapReduce с Apache Hadoop в HDInsight с помощью SSH

Узнайте, как отправлять задания MapReduce в HDInsight с помощью подключения SSH.

Примечание

Если вы уже знаете, как использовать серверы Apache Hadoop на платформе Linux, но не знакомы с HDInsight, ознакомьтесь со статьей Сведения об использовании HDInsight в Linux.

Предварительные требования

Кластер Apache Hadoop в HDInsight. См. Создание кластеров под управлением Linux в HDInsight с помощью портала Azure.

Использование команд Hadoop

  1. С помощью команды ssh command подключитесь к кластеру. Измените приведенную ниже команду, заменив CLUSTERNAME именем своего кластера, а затем введите команду:

    ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
    
  2. После подключения к кластеру HDInsight используйте следующую команду, чтобы запустить задание MapReduce:

    yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
    

    Эта команда запускает класс wordcount, который содержится в файле hadoop-mapreduce-examples.jar. Она использует документ /example/data/gutenberg/davinci.txt в качестве входных данных, а выходные данные хранятся в /example/data/WordCountOutput.

    Примечание

    Дополнительную информацию об этом задании MapReduce и примере данных см. в статье Использование MapReduce в Apache Hadoop в HDInsight.

    Задание выдает информацию о ходе обработки, а по завершении задания возвращает информацию, аналогичную приведенной ниже:

    File Input Format Counters
    Bytes Read=1395666
    File Output Format Counters
    Bytes Written=337623
    
  3. По завершении задания воспользуйтесь следующей командой, чтобы просмотреть выходные файлы:

    hdfs dfs -ls /example/data/WordCountOutput
    

    Эта команда отображает два файла — _SUCCESS и part-r-00000. Файл part-r-00000 содержит выходные данные этого задания.

    Примечание

    Некоторые задания MapReduce могут разделять результаты на несколько файлов part-r-№№№№№ . В этом случае используйте суффикс №№№№№, чтобы определить порядок файлов.

  4. Чтобы просмотреть выходные данные, используйте следующую команду:

    hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
    

    Она отобразит список слов, содержащихся в файле wasb://example/data/gutenberg/davinci.txt, а также количество вхождений каждого из них. Ниже приведен пример данных, содержащихся в файле.

    wreathed        3
    wreathing       1
    wreaths         1
    wrecked         3
    wrenching       1
    wretched        6
    wriggling       1
    

Дальнейшие действия

Как видите, команды Hadoop позволяют с легкостью выполнять задания MapReduce в кластере HDInsight и просматривать выходные данные задания. Дополнительная информация о других способах работы с Hadoop в HDInsight: