Esportare in una query Hive
Importante
Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.
A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).
- Vedere leinformazioni sullo spostamento di progetti di Machine Learning da ML Studio (versione classica) ad Azure Machine Learning.
- Altre informazioni sulle Azure Machine Learning.
La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.
Nota
Si applica a: Machine Learning Studio (versione classica)
Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.
Questo articolo descrive come usare l'opzione Esporta dati in Hive nel modulo Esporta dati in Machine Learning Studio (versione classica). Questa opzione è utile quando si lavora con set di dati di dimensioni molto grandi e si vogliono salvare i dati dell'esperimento di Machine Learning in un cluster Hadoop o in una risorsa di archiviazione distribuita di HDInsight. È anche possibile esportare i risultati intermedi o altri dati in Hadoop in modo che sia possibile elaborarlo usando un MapReduce processo.
Come esportare i dati in Hive
Aggiungere il modulo Export Data (Esporta dati) all'esperimento. È possibile trovare questo modulo nella categoria Input e output dei dati in Machine Learning Studio (versione classica).
Connessione il modulo al set di dati da esportare.
Per Origine dati selezionare Query Hive.
Per Nome tabella Hive digitare il nome della tabella Hive in cui archiviare il set di dati.
Nella casella di testo URI server HCatalog digitare il nome completo del cluster.
Ad esempio, se è stato creato un cluster con il nome
mycluster001
, usare questo formato:https://mycluster001.azurehdinsight.net
Nella casella di testo Hadoop user account name (Nome account utente Hadoop ) incollare l'account utente Hadoop usato durante il provisioning del cluster.
Nella casella di testo Password account utente Hadoop digitare le credenziali usate durante il provisioning del cluster.
Per Posizione dei dati di output selezionare l'opzione che indica dove archiviare i dati: HDFS o Azure.
Se i dati si trova in Hadoop Distributed file system (HDFS), devono essere accessibili tramite lo stesso account e la stessa password appena immessi.
Se i dati si trova in Azure, specificare la posizione e le credenziali dell'account di archiviazione.
Se è stata selezionata l'opzione HDFS , per URI server HDFS specificare il nome del cluster HDInsight senza il
https://
prefisso.Se è stata selezionata l'opzione Azure , specificare il nome dell'account di archiviazione e le credenziali che il modulo può usare per connettersi all'archiviazione.
Nome account di archiviazione di Azure: digitare il nome dell'account Azure. Ad esempio, se l'URL completo dell'account di archiviazione è
https://myshared.blob.core.windows.net
, digitaremyshared
.Chiave di archiviazione di Azure: copiare e incollare la chiave fornita per accedere all'account di archiviazione.
Nome del contenitore di Azure: specificare il contenitore predefinito per il cluster. Per suggerimenti su come determinare il contenitore predefinito, vedere la sezione Note tecniche.
Usa risultati memorizzati nella cache: selezionare questa opzione se si vuole evitare di riscrivere la tabella Hive ogni volta che si esegue l'esperimento. Se non sono presenti altre modifiche ai parametri del modulo, l'esperimento scrive la tabella Hive solo alla prima esecuzione del modulo o in caso di modifiche ai dati.
Se si vuole scrivere la tabella Hive ogni volta che viene eseguito l'esperimento, deselezionare l'opzione Usa risultati memorizzati nella cache .
Eseguire l'esperimento.
Esempio
Per esempi su come usare il modulo Export Data (Esporta dati), vedere il Azure AI Gallery.
- Advanced Analytics Process and Technology in Action: Using HDInsight Hadoop clusters (Processo di analisi avanzata e tecnologia in azione: uso dei cluster Hadoop di HDInsight): questo articolo fornisce una procedura dettagliata su come creare un cluster, caricare dati e chiamare i dati da Studio (versione classica) usando Hive.
Note tecniche
Questa sezione contiene informazioni dettagliate sull'implementazione, suggerimenti e risposte alle domande frequenti.
Domande frequenti
Come evitare problemi di memoria insufficiente durante la scrittura di set di dati di grandi dimensioni
In alcuni casi la configurazione predefinita del cluster Hadoop è troppo limitata per supportare l'esecuzione MapReduce processo. Ad esempio, in queste note sulla versione per HDInsight le impostazioni predefinite sono definite come cluster a quattro nodi.
Se i requisiti del processo MapReduce superano la capacità disponibile, le query Hive potrebbero restituire un messaggio di errore Memoria insufficiente, che causa l'esito negativo dell'operazione di esportazione dei dati. In questo caso, è possibile modificare l'allocazione di memoria predefinita per le query Hive.
Come evitare di ricaricare inutilmente gli stessi dati
Se non si vuole ricreare la tabella Hive ogni volta che si esegue l'esperimento, selezionare l'opzione Usa risultati memorizzati nella cache su TRUE. Quando questa opzione è impostata su TRUE, il modulo controlla se l'esperimento è stato eseguito in precedenza e, se viene trovata un'esecuzione precedente, l'operazione di scrittura non viene eseguita.
Suggerimenti per l'uso
Può essere difficile capire il contenitore predefinito per il cluster. Ecco alcuni suggerimenti:
Se il cluster è stato creato usando le impostazioni predefinite, è stato creato un contenitore con lo stesso nome nello stesso momento in cui è stato creato il cluster. Tale contenitore è il contenitore predefinito per il cluster.
Se il cluster è stato creato usando l'opzione CUSTOM CREATE , sono state fornite due opzioni per la selezione del contenitore predefinito.
Contenitore esistente: se è stato selezionato un contenitore esistente, tale contenitore è il contenitore di archiviazione predefinito per il cluster.
Crea contenitore predefinito: se è stata selezionata questa opzione, è stato creato un contenitore con lo stesso nome del cluster ed è necessario specificare il nome del contenitore come contenitore predefinito per il cluster.
Parametri del modulo
Nome | Intervallo | Type | Predefinito | Descrizione |
---|---|---|---|---|
Origine dati | Elenco | Origine dati o sink | Archiviazione BLOB di Azure | L'origine dati può essere HTTP, FTP, HTTPS anonimo o FTPS, un file nell'archivio BLOB di Azure, una tabella di Azure, un database SQL di Azure, una tabella Hive oppure un endpoint OData. |
Hive table name | any | string | Nessuno | Nome della tabella in Hive |
HCatalog server URI | any | string | Nessuno | Endpoint Templeton |
Hadoop user account name | any | string | Nessuno | Nome utente hadoop HDFS/HDInsight |
Password dell'account utente Hadoop | any | SecureString | Nessuno | Password hadoop HDFS/HDInsight |
Location of output data | any | DataLocation | HDFS | Specificare HDFS o Azure per outputDir |
HDFS server URI | any | string | Nessuno | Endpoint rest HDFS |
Nome dell'account di archiviazione di Azure | any | string | Nessuno | Nome dell'account di archiviazione di Azure |
Chiave di archiviazione di Azure | any | SecureString | Nessuno | Chiave di archiviazione di Azure |
Azure container name | any | string | Nessuno | Azure container name |
Usare i risultati memorizzati nella cache | VERO/FALSO | Boolean | FALSE | Il modulo viene eseguito solo se la cache valida non esiste; in caso contrario, usare i dati memorizzati nella cache dell'esecuzione precedente. |
Eccezioni
Eccezione | Descrizione |
---|---|
Errore 0027 | Viene generata un'eccezione quando due oggetti che dovrebbero essere delle stesse dimensioni sono differenti. |
Errore 0003 | Si verifica un'eccezione se uno o più input sono Null o vuoti. |
Errore 0029 | Viene generata un'eccezione quando viene passato un URI non valido. |
Errore 0030 | Viene generata un'eccezione se non è possibile scaricare un file. |
Errore 0002 | Viene generata un'eccezione se non è stato possibile analizzare o convertire uno o più parametri dal tipo specificato nel tipo richiesto dal metodo di destinazione. |
Errore 0009 | Viene generata un'eccezione se il nome dell'account di Archiviazione di Azure o il nome del contenitore non è stato specificato correttamente. |
Errore 0048 | Viene generata un'eccezione quando non è possibile aprire un file. |
Errore 0046 | Viene generata un'eccezione quando non è possibile creare una directory nel percorso specificato. |
Errore 0049 | Viene generata un'eccezione quando non è possibile analizzare un file. |
Per un elenco degli errori specifici dei moduli di Studio (versione classica), vedere Machine Learning codici di errore.
Per un elenco delle eccezioni API, vedere Machine Learning di errore dell'API REST.
Vedi anche
Importazione dei dati
Esportazione dei dati
Esportare in database SQL di Azure
Esportare i dati in Archiviazione BLOB di Azure
Esportare in una tabella di Azure