Importazione da URL Web tramite HTTP

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Questo articolo descrive come usare il modulo Import Data (Importa dati) in Machine Learning Studio (versione classica) per leggere i dati da una pagina Web pubblica da usare in un esperimento di Machine Learning.

Nota

Si applica a: Machine Learning Studio (versione classica)

Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.

Ai dati pubblicati in una pagina Web si applicano le restrizioni seguenti:

  • I dati devono essere in uno dei formati supportati: CSV, TSV, ARFF o SvmLight. Altri dati causeranno errori.
  • Non è richiesta o supportata alcuna autenticazione. I dati devono essere disponibili pubblicamente.

Come importare dati tramite HTTP

Esistono due modi per ottenere i dati: usare la procedura guidata per configurare l'origine dati o configurarla manualmente.

Usare l'Importazione guidata dati

  1. Aggiungere il modulo Import Data (Importa dati) all'esperimento. È possibile trovare il modulo in Studio (versione classica) nella categoria Input e output dei dati.

  2. Fare clic su Avvia Importazione guidata dati e selezionare URL Web tramite HTTP.

  3. Incollare l'URL e selezionare un formato dati.

  4. Al termine della configurazione, fare clic con il pulsante destro del mouse sul modulo e scegliere Esegui selezionato.

Per modificare una connessione dati esistente, avviare nuovamente la procedura guidata. La procedura guidata carica tutti i dettagli di configurazione precedenti in modo che non sia necessario ricominciare da zero

Impostare manualmente le proprietà nel modulo Import Data (Importa dati)

I passaggi seguenti descrivono come configurare manualmente l'origine di importazione.

  1. Aggiungere il modulo Import Data (Importa dati) all'esperimento. È possibile trovare il modulo in Studio (versione classica) nella categoria Input e output dei dati.

  2. Per Origine dati selezionare URL Web tramite HTTP.

  3. In URL digitare o incollare l'URL completo della pagina che contiene i dati da caricare.

    L'URL deve includere l'URL del sito e il percorso completo, con nome file ed estensione, della pagina che contiene i dati da caricare.

    Ad esempio, la pagina seguente contiene il set di dati Iris dal repository di Machine Learning della University of California, Irvine:

    https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

  4. Per Formato dati selezionare uno dei formati di dati supportati dall'elenco.

    È consigliabile controllare sempre i dati in anticipo per determinare il formato. La pagina UC Irvine usa il formato CSV. Altri formati di dati supportati sono TSV, ARFF e SvmLight.

  5. Se i dati sono in formato CSV o TSV, usare l'opzione File con riga di intestazione per indicare se i dati di origine includono o meno una riga di intestazione. La riga di intestazione viene utilizzata per assegnare nomi di colonna.

  6. Selezionare le opzioni Usa risultati memorizzati nella cache se non si prevede che i dati cambino di molto o se si vuole evitare di ricaricare i dati ogni volta che si esegue l'esperimento.

    Quando questa opzione è selezionata, l'esperimento carica i dati alla prima esecuzione del modulo e successivamente usa una versione memorizzata nella cache del set di dati.

    Se si vuole ricaricare il set di dati a ogni iterazione del set di dati dell'esperimento, deselezionare l'opzione Usa risultati memorizzati nella cache . I risultati vengono ricaricati anche in caso di modifiche ai parametri di Importazione dati.

  7. Eseguire l'esperimento.

Risultati

Al termine, fare clic sul set di dati di output e selezionare Visualizza per verificare se i dati sono stati importati correttamente.

Esempio

Vedere questi esempi nell'Azure AI Gallery di esperimenti di Machine Learning che ottengono dati da siti Web pubblici:

Note tecniche

Questa sezione contiene informazioni dettagliate sull'implementazione, suggerimenti e risposte alle domande frequenti.

Domande frequenti

È possibile filtrare i dati durante la lettura dall'origine?

No. Questa opzione non è supportata con questa origine dati.

Dopo aver letto i dati in Machine Learning Studio (versione classica), è possibile dividere il set di dati, usare il campionamento e così via per ottenere solo le righe desiderate:

  • Scrivere codice R semplice in Execute R Script (Esegui script R ) per ottenere una parte dei dati in base a righe o colonne.

  • Usare il modulo Split Data (Dividi dati) con un'espressione relativa o un'espressione regolare per isolare i dati desiderati.

  • Se sono stati caricati più dati del necessario, sovrascrivere il set di dati memorizzato nella cache leggendo un nuovo set di dati e salvarlo con lo stesso nome.

Come è possibile evitare di ricaricare inutilmente gli stessi dati?

Se i dati di origine cambiano, è possibile aggiornare il set di dati e aggiungere nuovi dati eseguendo di nuovo Importa dati.

Se non si vuole leggere nuovamente dall'origine ogni volta che si esegue l'esperimento, selezionare l'opzione Usa risultati memorizzati nella cache su TRUE. Quando questa opzione è impostata su TRUE, il modulo controlla se l'esperimento è stato eseguito in precedenza usando la stessa origine e le stesse opzioni di input. Se viene trovata un'esecuzione precedente, vengono usati i dati nella cache anziché ricaricare i dati dall'origine.

Perché è stata aggiunta una riga aggiuntiva alla fine del set di dati

Se il modulo Import Data rileva una riga di dati seguita da una riga vuota o da un carattere di nuova riga finale, viene aggiunta una riga aggiuntiva alla fine della tabella. Questa nuova riga contiene i valori mancanti.

Il motivo per cui si interpreta una nuova riga finale come nuova riga è che l'importazione di dati non è in grado di determinare la differenza tra una riga vuota effettiva e una riga vuota creata dall'utente che preme INVIO alla fine di un file.

Poiché alcuni algoritmi di Machine Learning supportano i dati mancanti e quindi trattano questa riga come un caso (che a sua volta potrebbe influire sui risultati), è consigliabile usare Pulisci dati mancanti per verificare la presenza di valori mancanti (in particolare le righe completamente vuote) e rimuoverli in base alle esigenze.

Prima di cercare righe vuote, è anche possibile dividere il set di dati usando Dividi dati. In questo modo vengono separate le righe con valori mancanti parziali che rappresentano gli effettivi valori mancanti nei dati di origine. Usare l'opzione Select head N rows per leggere la prima parte del set di dati in un contenitore separato dall'ultima riga.

Perché alcuni caratteri nel file di origine non vengono visualizzati correttamente

Machine Learning supporta la codifica UTF-8. Se nel file di origine è stato usato un altro tipo di codifica, i caratteri potrebbero non essere stati importati correttamente.

Parametri del modulo

Nome Intervallo Type Predefinito Descrizione
Origine dati Elenco Origine dati o sink Archiviazione BLOB di Azure L'origine dati può essere HTTP, FTP, HTTPS anonimo o FTPS, un file nell'archivio BLOB di Azure, una tabella di Azure, un database SQL di Azure, un database SQL Server locale, una tabella Hive o un endpoint OData.
URL any string Nessuno URL per HTTP
Formato dati CSV

TSV

ARFF

SVMLight
Formato dati CSV Tipo di file di origine HTTP
CSV or TSV has header row VERO/FALSO Boolean false Indica se il file CSV o TSV ha una riga di intestazione
Usare i risultati memorizzati nella cache VERO/FALSO Boolean FALSE Il modulo viene eseguito solo se non esiste una cache valida. In caso contrario, vengono usati i dati memorizzati nella cache dell'esecuzione precedente.

Output

Nome Tipo Descrizione
Set di dati di risultati Tabella dati Set di dati con dati scaricati

Eccezioni

Eccezione Descrizione
Errore 0027 Viene generata un'eccezione quando due oggetti che dovrebbero essere delle stesse dimensioni sono differenti.
Errore 0003 Si verifica un'eccezione se uno o più input sono Null o vuoti.
Errore 0029 Viene generata un'eccezione quando viene passato un URI non valido.
Errore 0030 Viene generata un'eccezione se non è possibile scaricare un file.
Errore 0002 Viene generata un'eccezione se non è stato possibile analizzare o convertire uno o più parametri dal tipo specificato nel tipo richiesto dal metodo di destinazione.
Errore 0048 Viene generata un'eccezione quando non è possibile aprire un file.
Errore 0046 Viene generata un'eccezione quando non è possibile creare una directory nel percorso specificato.
Errore 0049 Viene generata un'eccezione quando non è possibile analizzare un file.

Per un elenco di errori specifici dei moduli di Studio (versione classica), vedere l'Machine Learning codici di errore.

Per un elenco delle eccezioni API, vedere l'Machine Learning di errore dell'API REST.

Vedi anche

Importazione dei dati
Esportazione dei dati
Importare da una query Hive
Importazione da Database SQL di Azure
Importare da tabella di Azure
Importare da Archiviazione BLOB di Azure
Importare da provider di feed di dati
Importare da un database SQL Server locale