Esportare in una query Hive

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Nota

Si applica a: Machine Learning Studio (versione classica)

Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.

Questo articolo descrive come usare l'opzione Esporta dati in Hive nel modulo Esporta dati in Machine Learning Studio (versione classica). Questa opzione è utile quando si lavora con set di dati di dimensioni molto grandi e si vogliono salvare i dati dell'esperimento di Machine Learning in un cluster Hadoop o in una risorsa di archiviazione distribuita di HDInsight. È anche possibile esportare i risultati intermedi o altri dati in Hadoop in modo che sia possibile elaborarlo usando un MapReduce processo.

Come esportare i dati in Hive

  1. Aggiungere il modulo Export Data (Esporta dati) all'esperimento. È possibile trovare questo modulo nella categoria Input e output dei dati in Machine Learning Studio (versione classica).

    Connessione il modulo al set di dati da esportare.

  2. Per Origine dati selezionare Query Hive.

  3. Per Nome tabella Hive digitare il nome della tabella Hive in cui archiviare il set di dati.

  4. Nella casella di testo URI server HCatalog digitare il nome completo del cluster.

    Ad esempio, se è stato creato un cluster con il nome mycluster001, usare questo formato:

    https://mycluster001.azurehdinsight.net

  5. Nella casella di testo Hadoop user account name (Nome account utente Hadoop ) incollare l'account utente Hadoop usato durante il provisioning del cluster.

  6. Nella casella di testo Password account utente Hadoop digitare le credenziali usate durante il provisioning del cluster.

  7. Per Posizione dei dati di output selezionare l'opzione che indica dove archiviare i dati: HDFS o Azure.

    Se i dati si trova in Hadoop Distributed file system (HDFS), devono essere accessibili tramite lo stesso account e la stessa password appena immessi.

    Se i dati si trova in Azure, specificare la posizione e le credenziali dell'account di archiviazione.

  8. Se è stata selezionata l'opzione HDFS , per URI server HDFS specificare il nome del cluster HDInsight senza il https:// prefisso.

  9. Se è stata selezionata l'opzione Azure , specificare il nome dell'account di archiviazione e le credenziali che il modulo può usare per connettersi all'archiviazione.

    • Nome account di archiviazione di Azure: digitare il nome dell'account Azure. Ad esempio, se l'URL completo dell'account di archiviazione è https://myshared.blob.core.windows.net, digitare myshared.

    • Chiave di archiviazione di Azure: copiare e incollare la chiave fornita per accedere all'account di archiviazione.

    • Nome del contenitore di Azure: specificare il contenitore predefinito per il cluster. Per suggerimenti su come determinare il contenitore predefinito, vedere la sezione Note tecniche.

  10. Usa risultati memorizzati nella cache: selezionare questa opzione se si vuole evitare di riscrivere la tabella Hive ogni volta che si esegue l'esperimento. Se non sono presenti altre modifiche ai parametri del modulo, l'esperimento scrive la tabella Hive solo alla prima esecuzione del modulo o in caso di modifiche ai dati.

    Se si vuole scrivere la tabella Hive ogni volta che viene eseguito l'esperimento, deselezionare l'opzione Usa risultati memorizzati nella cache .

  11. Eseguire l'esperimento.

Esempio

Per esempi su come usare il modulo Export Data (Esporta dati), vedere il Azure AI Gallery.

Note tecniche

Questa sezione contiene informazioni dettagliate sull'implementazione, suggerimenti e risposte alle domande frequenti.

Domande frequenti

Come evitare problemi di memoria insufficiente durante la scrittura di set di dati di grandi dimensioni

In alcuni casi la configurazione predefinita del cluster Hadoop è troppo limitata per supportare l'esecuzione MapReduce processo. Ad esempio, in queste note sulla versione per HDInsight le impostazioni predefinite sono definite come cluster a quattro nodi.

Se i requisiti del processo MapReduce superano la capacità disponibile, le query Hive potrebbero restituire un messaggio di errore Memoria insufficiente, che causa l'esito negativo dell'operazione di esportazione dei dati. In questo caso, è possibile modificare l'allocazione di memoria predefinita per le query Hive.

Come evitare di ricaricare inutilmente gli stessi dati

Se non si vuole ricreare la tabella Hive ogni volta che si esegue l'esperimento, selezionare l'opzione Usa risultati memorizzati nella cache su TRUE. Quando questa opzione è impostata su TRUE, il modulo controlla se l'esperimento è stato eseguito in precedenza e, se viene trovata un'esecuzione precedente, l'operazione di scrittura non viene eseguita.

Suggerimenti per l'uso

Può essere difficile capire il contenitore predefinito per il cluster. Ecco alcuni suggerimenti:

  • Se il cluster è stato creato usando le impostazioni predefinite, è stato creato un contenitore con lo stesso nome nello stesso momento in cui è stato creato il cluster. Tale contenitore è il contenitore predefinito per il cluster.

  • Se il cluster è stato creato usando l'opzione CUSTOM CREATE , sono state fornite due opzioni per la selezione del contenitore predefinito.

    Contenitore esistente: se è stato selezionato un contenitore esistente, tale contenitore è il contenitore di archiviazione predefinito per il cluster.

    Crea contenitore predefinito: se è stata selezionata questa opzione, è stato creato un contenitore con lo stesso nome del cluster ed è necessario specificare il nome del contenitore come contenitore predefinito per il cluster.

Parametri del modulo

Nome Intervallo Type Predefinito Descrizione
Origine dati Elenco Origine dati o sink Archiviazione BLOB di Azure L'origine dati può essere HTTP, FTP, HTTPS anonimo o FTPS, un file nell'archivio BLOB di Azure, una tabella di Azure, un database SQL di Azure, una tabella Hive oppure un endpoint OData.
Hive table name any string Nessuno Nome della tabella in Hive
HCatalog server URI any string Nessuno Endpoint Templeton
Hadoop user account name  any string Nessuno Nome utente hadoop HDFS/HDInsight
Password dell'account utente Hadoop any SecureString Nessuno Password hadoop HDFS/HDInsight
Location of output data any DataLocation HDFS Specificare HDFS o Azure per outputDir
HDFS server URI any string Nessuno Endpoint rest HDFS
Nome dell'account di archiviazione di Azure any string Nessuno Nome dell'account di archiviazione di Azure
Chiave di archiviazione di Azure any SecureString Nessuno Chiave di archiviazione di Azure
Azure container name any string Nessuno Azure container name
Usare i risultati memorizzati nella cache VERO/FALSO Boolean FALSE Il modulo viene eseguito solo se la cache valida non esiste; in caso contrario, usare i dati memorizzati nella cache dell'esecuzione precedente.

Eccezioni

Eccezione Descrizione
Errore 0027 Viene generata un'eccezione quando due oggetti che dovrebbero essere delle stesse dimensioni sono differenti.
Errore 0003 Si verifica un'eccezione se uno o più input sono Null o vuoti.
Errore 0029 Viene generata un'eccezione quando viene passato un URI non valido.
Errore 0030 Viene generata un'eccezione se non è possibile scaricare un file.
Errore 0002 Viene generata un'eccezione se non è stato possibile analizzare o convertire uno o più parametri dal tipo specificato nel tipo richiesto dal metodo di destinazione.
Errore 0009 Viene generata un'eccezione se il nome dell'account di Archiviazione di Azure o il nome del contenitore non è stato specificato correttamente.
Errore 0048 Viene generata un'eccezione quando non è possibile aprire un file.
Errore 0046 Viene generata un'eccezione quando non è possibile creare una directory nel percorso specificato.
Errore 0049 Viene generata un'eccezione quando non è possibile analizzare un file.

Per un elenco degli errori specifici dei moduli di Studio (versione classica), vedere Machine Learning codici di errore.

Per un elenco delle eccezioni API, vedere Machine Learning di errore dell'API REST.

Vedi anche

Importazione dei dati
Esportazione dei dati
Esportare in database SQL di Azure
Esportare i dati in Archiviazione BLOB di Azure
Esportare in una tabella di Azure