Преобразование данных с помощью действия Hive для Hadoop в Фабрике данных Azure или Synapse Analytics

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Действие Hive HDInsight в конвейере Фабрики данных Azure или Synapse Analytics выполняет запросы Hive к вашему кластеру HDInsight или кластеру HDInsight по запросу. Данная статья основана на материалах статьи о действиях преобразования данных , в которой приведен общий обзор преобразования данных и список поддерживаемых действий преобразования.

Если вы не знакомы с Фабрикой данных Azure и Synapse Analytics, ознакомьтесь с вводными статьями по Фабрике данных Azure и Synapse Analytics, а также выполните инструкции в руководстве по преобразованию данных перед чтением этой статьи.

Добавление действия HDInsight Hive в конвейер с помощью пользовательского интерфейса

Чтобы использовать действие Hive HDInsight для Azure Data Lake Analytics в конвейере, выполните следующие шаги:

  1. Выполните поиск элемента Hive на панели конвейера «Действия» и перетащите действие Hive на холст конвейера.

  2. Выберите действие Hive на холсте, если оно еще не выбрано.

  3. Перейдите на вкладку Кластер HDI, чтобы выбрать или создать связанную службу для кластера HDInsight, которая будет использоваться для выполнения действия Hive.

    Отображает пользовательский интерфейс для действия Hive.

  4. Перейдите на вкладку Скрипт, чтобы выбрать или создать связанную службу хранилища, и путь в месте хранения, в котором будет размещен скрипт.

    Отображает пользовательский интерфейс для вкладки

Синтаксис

{
    "name": "Hive Activity",
    "description": "description",
    "type": "HDInsightHive",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\HiveScripts\\MyHiveSript.hql",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Сведения о синтаксисе

Свойство Описание: Обязательное поле
name Имя действия. Да
описание Текст, описывающий, для чего используется действие No
type Для действия Hive используется тип действия HDinsightHive. Да
linkedServiceName Ссылка на кластер HDInsight, зарегистрированный в качестве связанной службы. Дополнительные сведения об этой связанной службе см. в статье Вычислительные среды, поддерживаемые фабрикой данных Azure. Да
scriptLinkedService Ссылки на связанные службы хранилища Azure, используемые для хранения скрипта Hive, который следует выполнить. Здесь поддерживаются только связанные службы Хранилище BLOB-объектов Azure и ADLS 2-го поколения. Если не указать эту связанную службу, будет использоваться связанная служба хранилища Azure, определенная в связанной службе HDInsight. No
scriptPath Укажите путь к файлу скрипта, который хранится в службе хранилища Azure, на который ссылается scriptLinkedService. В имени файла учитывается регистр знаков. Да
getDebugInfo Указывает, когда файлы журнала копируются в службу хранилища Azure, используемую кластером HDInsight или определенную scriptLinkedService. Допустимые значения: None, Always или Failure. Значение по умолчанию: None. No
аргументы Указывает массив аргументов для задания Hadoop. Аргументы передаются в качестве аргументов командной строки в каждую задачу. No
defines Параметры в виде пары "ключ — значение", ссылки на которые указываются в скрипте Hive. No
queryTimeout Значение времени ожидания запроса (в минутах). Применяется, если кластер HDInsight доступный с Корпоративными пакетами безопасности. No

Примечание.

По умолчанию значение queryTimeout равно 120 минутам.

Ознакомьтесь со следующими ссылками, в которых описаны способы преобразования данных другими способами: