Importare da provider di feed di dati

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Questo articolo descrive come usare il modulo Importa dati in Machine Learning Studio (versione classica) per importare i dati forniti nel formato OData in un esperimento di Machine Learning.

Nota

Si applica a: Machine Learning Studio (versione classica)

Moduli di trascinamento della selezione simili sono disponibili nella finestra Azure Machine Learning progettazione.

La creazione di un endpoint OData per un set di dati è un modo per rendere disponibile un modello di dati per l'utilizzo tramite URL. È anche possibile specificare le operazioni OData che verranno supportate dall'endpoint. Per altre informazioni sulla creazione Odata di endpoint, vedere OData v4 (ASP.NET).

Come importare dati da un feed

È consigliabile profilare i dati prima dell'importazione per assicurarsi che lo schema sia quello previsto. Il processo di importazione analizza un certo numero di righe head per determinare lo schema, ma le righe successive potrebbero contenere colonne aggiuntive o dati che causano errori.

Usare l'Importazione guidata dati

Il modulo include una nuova procedura guidata che consente di scegliere un'opzione di archiviazione. Usare la procedura guidata per selezionare tra sottoscrizioni e account esistenti e configurare rapidamente tutte le opzioni.

  1. Aggiungere il modulo Importa dati all'esperimento. È possibile trovare il modulo in Studio (versione classica), nella categoria Input e output dati.

  2. Fare clic su Avvia Importazione guidata dati e seguire le istruzioni visualizzate.

  3. Al termine della configurazione, per copiare effettivamente i dati nell'esperimento, fare clic con il pulsante destro del mouse sul modulo e scegliere Esegui selezionato.

Se è necessario modificare una connessione dati esistente, la procedura guidata carica tutti i dettagli di configurazione precedenti in modo che non sia necessario ricominciare da zero.

Impostare manualmente le proprietà nel modulo Importa dati

È anche possibile configurare manualmente l'origine di importazione.

  1. Aggiungere il modulo Importa dati all'esperimento. È possibile trovare questo modulo in Studio (versione classica), nella categoria Input e output dati.

  2. Per Origine dati selezionare Provider di feed di dati.

  3. Per Tipo di contenuto dati selezionare il tipo di feed. Attualmente sono supportati solo gli endpoint OData.

  4. Per URL di origine incollare l'URL di un sito che fornisce i dati nel formato richiesto.

    Ad esempio, l'istruzione seguente ottiene l'elenco di prodotti dal database di esempio Northwind:

    https://services.odata.org/northwind/northwind.svc/Products

    Per altre informazioni, vedere Sintassi OData.

  5. Selezionare l'opzione Usa risultati memorizzati nella cache se non è necessario ricaricare i dati dopo la prima volta. Si tratta di un'opzione valida se non è previsto che i dati cambino tra le esecuzioni dell'esperimento.

    Se non sono presenti altre modifiche ai parametri del modulo, l'esperimento carica i dati alla prima esecuzione del modulo e successivamente usa una versione memorizzata nella cache del set di dati.

    Se è necessario aggiornare regolarmente i dati, deselezionare questa opzione.

  6. Eseguire l'esperimento.

Risultati

Al termine, fare clic sul set di dati di output e selezionare Visualizza per verificare se i dati sono stati importati correttamente.

Quando Importa dati carica i dati del feed in Studio (versione classica), deduce il tipo di dati di ogni colonna in base ai valori contenuti, numerici o categorici.

  • Se è presente un'intestazione, questa viene usata per assegnare un nome alle colonne dal set di dati di output.

  • Se non sono presenti intestazioni di colonna esistenti nei dati, i nuovi nomi di colonna vengono generati usando il formato col1, col2,… ,coln.

Note tecniche

Questa sezione contiene informazioni dettagliate sull'implementazione, suggerimenti e risposte alle domande frequenti.

Sintassi OData

La query deve restituire una tabella flat. L'appiattimento dei record OData annidati non è supportato.

Alcune colonne incluse nei feed OData potrebbero avere tipi di dati non supportati in Studio (versione classica), ad esempio i decimali. È possibile inserire i dati come stringhe e convertirli in un secondo momento usando i moduli Esegui script Ro Editor metadati .

Per altre informazioni sulla sintassi e sugli URL di OData, vedere Odata.org - convenzioni uri

Domande frequenti

È possibile filtrare i dati durante la lettura dall'origine?

Il modulo Importa dati in genere non supporta il filtro durante la lettura dei dati. Tuttavia, è possibile specificare una condizione di filtro come parte dell'URL della risorsa feed.

Per filtrare i dati dal feed, usare le istruzioni supportate dal protocollo OData. Ad esempio, questo URL usa l'espressione $filter per ottenere solo gli ordini correlati al dipendente con ID uguale a 1.

https://services.odata.org/Northwind/Northwind.svc/Orders?$filter=Employee/EmployeeID eq 1

Per altri esempi di sintassi di filtro, vedere Uso di espressioni di filtro negli URI OData.

In alternativa, è possibile ottenere tutti i dati e filtrarla dopo il caricamento in Machine Learning Studio (versione classica):

  • Usare uno script R personalizzato per ottenere solo i dati desiderati.

  • Usare il modulo Dividi dati con un'espressione relativa o un'espressione regolare per isolare i dati desiderati e quindi salvarli come set di dati.

Nota

Se si ritiene di aver caricato più dati del necessario, è possibile sovrascrivere il set di dati memorizzato nella cache leggendo un nuovo set di dati e salvandolo con lo stesso nome del precedente set di dati più grande.

Viene visualizzato l'errore. Le credenziali sono necessarie per connettersi all'origine OData. Aggiornare e fornire le credenziali per continuare. Come è possibile specificare le credenziali?**

Il modulo Importa dati supporta solo endpoint OData con accesso anonimo. Se il servizio OData richiede credenziali, non è possibile usare l'opzione OData per ottenere i dati.

Tuttavia, se il servizio si trova nello stesso dominio, l'autenticazione può talvolta avvenire automaticamente senza alcun input dell'utente.

Come soluzione alternativa, è possibile usare PowerQuery o PowerPivot per leggere i dati del feed e quindi ottenere i dati da Excel.

Come è possibile evitare di ricaricare inutilmente gli stessi dati?

Se i dati di origine cambiano, è possibile aggiornare il set di dati e aggiungere nuovi dati eseguendo nuovamente Importa dati. Tuttavia, se non si vuole ri-leggere dall'origine ogni volta che si esegue l'esperimento, selezionare l'opzione Usa risultati memorizzati nella cache su TRUE. Quando questa opzione è impostata su TRUE, il modulo verifica se l'esperimento è stato eseguito in precedenza usando la stessa origine e le stesse opzioni di input e, se viene trovata un'esecuzione precedente, vengono usati i dati nella cache, anziché ricaricare i dati dall'origine.

Perché viene visualizzato il messaggio di errore "Tipo decimale non supportato"?

Il decimal tipo di dati non è supportato in Machine Learning. Il motivo è che l'importazione di dati non può eseguire automaticamente alcuna conversione che comporta una perdita di precisione.

Per altre informazioni sui tipi di dati supportati, vedere Tipi di dati del modulo.

Come soluzione alternativa, è possibile leggere i dati come tipo di dati stringa e quindi usare Modifica metadati per convertire i decimali in dati supportati prima di leggere i dati.

Perché alcuni caratteri nel feed non vengono visualizzati correttamente?

Machine Learning supporta la codifica UTF-8. Se l'origine usa un altro tipo di codifica, i caratteri potrebbero non essere importati correttamente.

Come soluzione alternativa, è possibile salvare i dati in un file CSV nell'archiviazione tabelle di Azure o nell'archiviazione BLOB di Azure. Usare quindi l'opzione CSV con codifica per specificare i parametri per i delimitatori personalizzati, la tabella codici e così via.

Parametri del modulo

Nome Intervallo Type Predefinito Descrizione
Origine dati Elenco Origine dati o sink Archiviazione BLOB di Azure L'origine dati può essere HTTP, FTP, HTTPS anonimo o FTPS, un file nell'archivio BLOB di Azure, una tabella di Azure, un database SQL di Azure, un database SQL Server locale, una tabella Hive o un endpoint OData.
Data content type Elenco (subset) Contenuto dell'URL OData Tipo di formato dati
URL della fonte any string URL per l Power Query'origine dati
Usare i risultati memorizzati nella cache VERO/FALSO Boolean FALSE description

Output

Nome Tipo Descrizione
Set di dati di risultati Tabella dati Set di dati con dati scaricati

Eccezioni

Eccezione Descrizione
Errore 0003 Si verifica un'eccezione se uno o più input sono Null o vuoti.
Errore 0029 Viene generata un'eccezione quando viene passato un URI non valido.
Errore 0030 Viene generata un'eccezione se non è possibile scaricare un file.
Errore 0002 Viene generata un'eccezione se non è stato possibile analizzare o convertire uno o più parametri dal tipo specificato nel tipo richiesto dal metodo di destinazione.

Per un elenco di errori specifici dei moduli di Studio (versione classica), vedere l'Machine Learning codici di errore.

Per un elenco delle eccezioni API, vedere l'Machine Learning di errore dell'API REST.

Vedi anche

Importazione dei dati
Esportazione dei dati
Importazione da URL Web tramite HTTP
Importare da una query Hive
Importazione da Database SQL di Azure
Importare da tabella di Azure
Importare da Archiviazione BLOB di Azure
Importare da un database SQL Server locale