Trasformare i dati usando l'attività Hive di Hadoop in Azure Data Factory o Synapse Analytics

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi completa per le aziende. Microsoft Fabric copre tutti gli elementi, dallo spostamento dei dati all'analisi scientifica dei dati, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Scopri come avviare gratuitamente una nuova versione di valutazione .

L'attività Hive di HDInsight in una pipeline di Azure Data Factory o Synapse Analytics esegue query Hive nel proprio cluster HDInsight o su richiesta. Questo articolo si basa sull'articolo relativo alle attività di trasformazione dei dati che presenta una panoramica generale della trasformazione dei dati e le attività di trasformazione supportate.

Se non si ha una versione di Azure Data Factory e Synapse Analytics, leggere gli articoli introduttivi per Azure Data Factory o Synapse Analytics ed eseguire l'esercitazione : trasformare i dati prima di leggere questo articolo.

Aggiungere un'attività Hive di HDInsight a una pipeline con l'interfaccia utente

Per usare un'attività Hive di HDInsight per Azure Data Lake Analytics in una pipeline, seguire questa procedura:

  1. Cercare Hive nel riquadro Attività pipeline e trascinare un'attività Hive nell'area di disegno della pipeline.

  2. Selezionare la nuova attività Hive nell'area di disegno, se non è già selezionata.

  3. Selezionare la scheda Cluster HDI per selezionare o creare un nuovo servizio collegato in un cluster HDInsight che verrà usato per eseguire l'attività Hive.

    Shows the UI for a Hive activity.

  4. Selezionare la scheda Script per selezionare o creare un nuovo servizio collegato di archiviazione e un percorso all'interno del percorso di archiviazione, che ospiterà lo script.

    Shows the UI for the Script tab for a Hive activity.

Sintassi

{
    "name": "Hive Activity",
    "description": "description",
    "type": "HDInsightHive",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\HiveScripts\\MyHiveSript.hql",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Dettagli sintassi

Proprietà Descrizione Richiesto
name Nome dell'attività
description Testo descrittivo per lo scopo dell'attività No
Tipo Per l'Attività Hive, il tipo di attività è HDinsightHive
linkedServiceName Riferimento al cluster HDInsight registrato come servizio collegato. Per informazioni su questo servizio collegato, vedere l'articolo Servizi collegati di calcolo.
scriptLinkedService Riferimento a un servizio collegato Archiviazione di Azure usato per memorizzare lo script Hive da eseguire. Qui sono supportati solo i servizi collegati Archiviazione BLOB di Azure e ADLS Gen2. Se non si specifica questo servizio collegato, viene usato il servizio collegato Archiviazione di Azure definito nel servizio collegato HDInsight. No
scriptPath Specificare il percorso del file di script archiviato nel servizio Archiviazione di Azure indicato da scriptLinkedService. Il nome del file distingue tra maiuscole e minuscole.
getDebugInfo Specifica quando i file di log vengono copiati nell'Archiviazione di Azure usata dal cluster HDInsight (o) indicata da scriptLinkedService. Valori consentiti: None, Always o Failure. Valore predefinito: None. No
arguments Specifica una matrice di argomenti per un processo Hadoop. Gli argomenti vengono passati a ogni attività come argomenti della riga di comando. No
defines Specificare i parametri come coppie chiave/valore per fare riferimento a essi nello script Hive. No
queryTimeout Valore di timeout di query (in minuti). Applicabile se il cluster HDInsight è abilitato per Enterprise Security Package. No

Nota

Il valore predefinito per queryTimeout è 120 minuti.

Vedere gli articoli seguenti, che illustrano altre modalità di trasformazione dei dati: