Eseguire la conversione in set di dati

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Converte l'input di dati nel formato set di dati interno usato da Microsoft Machine Learning

Categoria: Conversioni del formato dati

Nota

Si applica a: Machine Learning Studio (versione classica)

Moduli di trascinamento della selezione simili sono disponibili nella finestra Azure Machine Learning progettazione.

Panoramica del modulo

Questo articolo descrive come usare il modulo Converti in set di dati in Machine Learning Studio (versione classica) per convertire tutti i dati che potrebbero essere necessari per un esperimento nel formato interno usato da Studio (versione classica).

La conversione non è necessaria nella maggior parte dei casi, perché Machine Learning converte in modo implicito i dati nel formato del set di dati nativo quando viene eseguita qualsiasi operazione sui dati.

Il salvataggio dei dati nel formato di set di dati è tuttavia consigliabile se è stata eseguita una normalizzazione o una pulizia in un set di dati e si desidera assicurarsi che le modifiche vengano usate negli esperimenti successivi.

Nota

Convert to Dataset cambia solo il formato dei dati e non salva una nuova copia dei dati nell'area di lavoro. Per salvare il set di dati, fare doppio clic sulla porta di output, selezionare Salva come set di dati e digitare un nuovo nome.

Come usare Converti in set di dati

È consigliabile usare il modulo Modifica metadati per preparare il set di dati prima di usare Converti in set di dati. È possibile aggiungere o modificare i nomi delle colonne, modificare i tipi di dati e così via.

  1. Aggiungere il modulo Converti in set di dati all'esperimento. È possibile trovare questo modulo nella categoria Conversioni formato dati in Machine Learning Studio (versione classica).

  2. Connessione a qualsiasi modulo che restituisce un set di dati.

    Se i dati sono tabulari, è possibile convertirli in un set di dati. Sono inclusi i dati caricati usando l'opzione Importa dati, i dati creati usando Immetti dati manualmente, i dati generati dal codice nei moduli personalizzati, i set di dati trasformati tramite Applica trasformazione o i set di dati generati o modificati tramite Applica trasformazione SQL.

  3. Nell'elenco a discesa Azione indicare se si vuole eseguire la pulizia dei dati prima di salvare il set di dati:

    • Nessuno: usare i dati così come sono.

    • SetMissingValue: specificare un segnaposto che viene inserito nel set di dati ovunque sia presente un valore mancante. Il segnaposto predefinito è il carattere punto interrogativo (?), ma è possibile usare l'opzione Valore mancante personalizzato per digitare un valore diverso.

    • ReplaceValues: usare questa opzione per specificare un singolo valore esatto da sostituire con qualsiasi altro valore esatto. Ad esempio, supponendo che i dati obs contengano la stringa usata come segnaposto per i valori mancanti, è possibile specificare un'operazione di sostituzione personalizzata usando queste opzioni:

      1. Impostare Sostituisci su Personalizzato

      2. In Valore personalizzato digitare il valore che si vuole trovare. In questo caso, digitare obs.

      3. Per Nuovo valore digitare il nuovo valore con cui sostituire la stringa originale. In questo caso, è possibile digitare ?

    Si noti che l'operazione ReplaceValues si applica solo alle corrispondenze esatte. Ad esempio, queste stringhe non sono interessate: obs., obsolete.

    • SparseOutput: indica che il set di dati è di tipo sparse. Creando un vettore di dati di tipo sparse, è possibile assicurarsi che i valori mancanti non influiscano su una distribuzione di dati di tipo sparse. Dopo aver scelto questa opzione, è necessario indicare come devono essere gestiti i valori mancanti e zero.

    Per rimuovere qualsiasi valore diverso da zero, fare clic sull'opzione Rimuovi e digitare un singolo valore da rimuovere. È possibile rimuovere i valori mancanti o impostare un valore personalizzato da eliminare dal vettore. Verranno rimosse solo le corrispondenze esatte. Ad esempio, se si digita x nella casella di testo Rimuovi valore , la riga xx non verrà interessata.

    Per impostazione predefinita, l'opzione Rimuovi zeri è impostata su True, vale a dire che tutti i valori zero vengono rimossi quando viene creata la colonna di tipo sparse.

  4. Eseguire l'esperimento oppure fare clic con il pulsante destro del mouse sul modulo Converti in set di dati e scegliere Esegui selezionato.

Risultati

  • Per salvare il set di dati risultante con un nuovo nome, fare clic con il pulsante destro del mouse sull'output di Converti in set di dati e scegliere Salva come set di dati.

Esempio

È possibile visualizzare esempi di come viene usato il modulo Converti in set di dati nel Azure AI Gallery:

  • Esempio CRM: legge da un set di dati condiviso e salva una copia del set di dati nell'area di lavoro locale.

  • Esempio di ritardo di volo: salva un set di dati che è stato pulito sostituendo i valori mancanti in modo da poterlo usare per esperimenti futuri.

Note tecniche

Questa sezione contiene informazioni dettagliate sull'implementazione, suggerimenti e risposte alle domande frequenti.

  • Tutti i moduli che accettano un set di dati come input possono anche accettare dati in formato CSV, TSV o ARFF. Prima dell'esecuzione del codice di qualsiasi modulo, viene eseguita la pre-elaborazione degli input, che equivale all'esecuzione del modulo Convert to Dataset sull'input.

  • Non è possibile eseguire la conversione dal formato SVMLight al set di dati.

  • Quando si specifica un'operazione di sostituzione personalizzata, l'operazione di ricerca e sostituzione viene applicata ai valori completi. Le corrispondenze parziali non sono consentite. È ad esempio possibile sostituire un 3 con un -1 oppure con 33, ma non è possibile sostituire un 3 in un numero a due cifre come 35.

  • Per le operazioni di sostituzione personalizzata, la sostituzione ha esito negativo in modo invisibile all'utente se si usa un carattere sostitutivo non conforme al tipo di dati corrente della colonna.

  • Se è necessario salvare dati che usano dati numerici di tipo sparse e con valori mancanti, internamente Studio (versione classica) supporta le matrici di tipo sparse usando uno SparseVector, una classe nella libreria numerica Math.NET. Preparare i dati che usano zeri e con valori mancanti e quindi usare Converti in set di dati con gli argomenti SparseOutput e Remove Zeros = TRUE.

Input previsti

Nome Tipo Descrizione
Set di dati Tabella dati Set di dati di input

Parametri del modulo

Nome Intervallo Type Predefinito Descrizione
Azione Elenco Metodo Azione Nessuno Azione da applicare al set di dati di input

Output

Nome Tipo Descrizione
Set di dati di risultati Tabella dati Set di dati di output

Vedi anche

Conversioni del formato dati
Elenco moduli A-Z