Начало работы с Azure Data Lake Analytics с помощью интерфейса командной строки Azure

Важно!

Новые учетные записи azure Data Lake Analytics больше нельзя создавать, если ваша подписка не включена. Если вам нужно включить подписку, обратитесь в службу поддержки и предоставьте свой бизнес-сценарий.

Если вы уже используете Azure Data Lake Analytics, необходимо создать план миграции для Azure Synapse Analytics для вашей организации до 29 февраля 2024 г.

В этой статье описано, как использовать Azure CLI для создания учетной записи Data Lake Analytics, а также отправки заданий и каталогов U-SQL. Задание, которое считывает файл с разделителями-табуляциями (TSV) и преобразует его в файл с разделителями-запятыми (CSV).

Предварительные требования

Для работы вам понадобится следующее:

Вход в Azure

Чтобы войти в вашу подписку Azure:

az login

Вам будет предложено перейти по URL-адресу и ввести код проверки подлинности. Следуйте инструкциям, чтобы ввести учетные данные.

После входа в систему команда login выводит список подписок.

Чтобы выбрать нужную подписку, выполните следующую команду:

az account set --subscription <subscription id>

Создание учетной записи аналитики озера данных

Для выполнения любых заданий требуется учетная запись Data Lake Analytics. Для создания учетной записи Data Lake Analytics необходимо указать следующие данные.

  • Группа ресурсов Azure. В группе ресурсов Azure необходимо создать учетную запись Data Lake Analytics. Azure Resource Manager позволяет работать с группами ресурсов в приложении. Вы можете развертывать, обновлять или удалять все ресурсы для приложения в рамках одной скоординированной операции.

Чтобы отобразить существующие группы ресурсов в своей подписке выполните следующую команду:

az group list

Чтобы создать новую группу ресурсов:

az group create --name "<Resource Group Name>" --location "<Azure Location>"
  • Имя учетной записи Data Lake Analytics. Каждой учетной записи Data Lake Analytics присвоено имя.
  • Расположение. Используйте один из центров обработки данных Azure, который поддерживает Data Lake Analytics.
  • Учетная запись Data Lake Store по умолчанию — каждая учетная запись Data Lake Analytics содержит учетную запись Data Lake Store по умолчанию.

Чтобы получить список существующих учетных записей Data Lake Store, выполните эту команду:

az dls account list

Чтобы создать новую учетную запись Data Lake Store, выполните эту команду:

az dls account create --account "<Data Lake Store Account Name>" --resource-group "<Resource Group Name>"

Используйте следующий синтаксис, чтобы создать учетную запись Data Lake Analytics:

az dla account create --account "<Data Lake Analytics Account Name>" --resource-group "<Resource Group Name>" --location "<Azure location>" --default-data-lake-store "<Default Data Lake Store Account Name>"

Создав учетную запись, вы можете получить список учетных записей и просмотреть сведения о них. Для этого выполните следующие команды:

az dla account list
az dla account show --account "<Data Lake Analytics Account Name>"

Передача данных в хранилище озера данных

В этом руководстве обрабатываются некоторые журналы поиска. Журнал поиска может храниться в хранилище озера данных или в хранилище больших двоичных объектов Azure.

На портале Azure реализован пользовательский интерфейс для копирования файлов с образцами данных, включая файл журнала поиска, в учетную запись Data Lake Store по умолчанию. О передаче данных в учетную запись Data Lake Store по умолчанию см. в разделе Подготовка исходных данных.

Чтобы передать файлы, используя интерфейс командной строки Azure, выполните следующую команду:

az dls fs upload --account "<Data Lake Store Account Name>" --source-path "<Source File Path>" --destination-path "<Destination File Path>"
az dls fs list --account "<Data Lake Store Account Name>" --path "<Path>"

Из аналитики озера данных также доступно хранилище больших двоичных объектов Azure. Чтобы передать данные в хранилище BLOB-объектов Azure, см. статью Использование интерфейса командной строки (CLI) Azure со службой хранилища Azure.

Отправка заданий аналитики озера данных

Задания аналитики озера данных пишутся на языке U-SQL. Дополнительные сведения о языке U-SQL см. в статье о начале работы с языком U-SQL и в справочнике по языку U-SQL.

Создание скрипта задания аналитики озера данных

Создайте текстовый файл со следующим скриптом U-SQL, а затем сохраните текстовый файл на своей рабочей станции.

@a  =
    SELECT * FROM
        (VALUES
            ("Contoso", 1500.0),
            ("Woodgrove", 2700.0)
        ) AS
              D( customer, amount );
OUTPUT @a
    TO "/data.csv"
    USING Outputters.Csv();

Этот сценарий U-SQL считывает файл исходных данных с помощью Extractors.Tsv(), а затем создает CSV-файл с помощью Outputters.Csv().

Не меняйте эти два пути, если только исходный файл не был скопирован в другое место. Data Lake Analytics создаст выходную папку, если ее не существует.

Проще использовать относительные пути для файлов, хранящихся в учетных записях Data Lake Store по умолчанию. Также можно использовать абсолютные пути. Пример:

adl://<Data LakeStorageAccountName>.azuredatalakestore.net:443/Samples/Data/SearchLog.tsv

Необходимо использовать абсолютные пути для доступа к файлам в связанных учетных записях хранения. Для файлов, хранящихся в связанной учетной записи хранения Azure, используется следующий синтаксис:

wasb://<BlobContainerName>@<StorageAccountName>.blob.core.windows.net/Samples/Data/SearchLog.tsv

Примечание

Контейнер больших двоичных объектов Azure с общедоступными большими двоичными объектами не поддерживается. Контейнер больших двоичных объектов Azure с общедоступными контейнерами не поддерживается.

Отправка заданий

Чтобы отправить задание, используйте этот синтаксис:

az dla job submit --account "<Data Lake Analytics Account Name>" --job-name "<Job Name>" --script "<Script Path and Name>"

Пример:

az dla job submit --account "myadlaaccount" --job-name "myadlajob" --script @"C:\DLA\myscript.txt"

Отображение списка заданий и сведений о задании

az dla job list --account "<Data Lake Analytics Account Name>"
az dla job show --account "<Data Lake Analytics Account Name>" --job-identity "<Job Id>"

Отмена заданий

az dla job cancel --account "<Data Lake Analytics Account Name>" --job-identity "<Job Id>"

Получение результатов задания

По окончании задания используйте следующие команды, чтобы вывести и скачать выходные файлы:

az dls fs list --account "<Data Lake Store Account Name>" --source-path "/Output" --destination-path "<Destination>"
az dls fs preview --account "<Data Lake Store Account Name>" --path "/Output/SearchLog-from-Data-Lake.csv"
az dls fs preview --account "<Data Lake Store Account Name>" --path "/Output/SearchLog-from-Data-Lake.csv" --length 128 --offset 0
az dls fs download --account "<Data Lake Store Account Name>" --source-path "/Output/SearchLog-from-Data-Lake.csv" --destination-path "<Destination Path and File Name>"

Пример:

az dls fs download --account "myadlsaccount" --source-path "/Output/SearchLog-from-Data-Lake.csv" --destination-path "C:\DLA\myfile.csv"

Дальнейшие действия