Использование MapReduce с Apache Hadoop в HDInsight с помощью SSH
Узнайте, как отправлять задания MapReduce в HDInsight с помощью подключения SSH.
Примечание
Если вы уже знаете, как использовать серверы Apache Hadoop на платформе Linux, но не знакомы с HDInsight, ознакомьтесь со статьей Сведения об использовании HDInsight в Linux.
Предварительные требования
Кластер Apache Hadoop в HDInsight. См. Создание кластеров под управлением Linux в HDInsight с помощью портала Azure.
Использование команд Hadoop
С помощью команды ssh command подключитесь к кластеру. Измените приведенную ниже команду, заменив CLUSTERNAME именем своего кластера, а затем введите команду:
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
После подключения к кластеру HDInsight используйте следующую команду, чтобы запустить задание MapReduce:
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
Эта команда запускает класс
wordcount
, который содержится в файлеhadoop-mapreduce-examples.jar
. Она использует документ/example/data/gutenberg/davinci.txt
в качестве входных данных, а выходные данные хранятся в/example/data/WordCountOutput
.Примечание
Дополнительную информацию об этом задании MapReduce и примере данных см. в статье Использование MapReduce в Apache Hadoop в HDInsight.
Задание выдает информацию о ходе обработки, а по завершении задания возвращает информацию, аналогичную приведенной ниже:
File Input Format Counters Bytes Read=1395666 File Output Format Counters Bytes Written=337623
По завершении задания воспользуйтесь следующей командой, чтобы просмотреть выходные файлы:
hdfs dfs -ls /example/data/WordCountOutput
Эта команда отображает два файла —
_SUCCESS
иpart-r-00000
. Файлpart-r-00000
содержит выходные данные этого задания.Примечание
Некоторые задания MapReduce могут разделять результаты на несколько файлов part-r-№№№№№ . В этом случае используйте суффикс №№№№№, чтобы определить порядок файлов.
Чтобы просмотреть выходные данные, используйте следующую команду:
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
Она отобразит список слов, содержащихся в файле wasb://example/data/gutenberg/davinci.txt, а также количество вхождений каждого из них. Ниже приведен пример данных, содержащихся в файле.
wreathed 3 wreathing 1 wreaths 1 wrecked 3 wrenching 1 wretched 6 wriggling 1
Дальнейшие действия
Как видите, команды Hadoop позволяют с легкостью выполнять задания MapReduce в кластере HDInsight и просматривать выходные данные задания. Дополнительная информация о других способах работы с Hadoop в HDInsight: