Immettere i dati manualmente

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Consente di immettere e modificare set di dati di piccole dimensioni digitando valori

Categoria: Trasformazione/Manipolazione dei dati

Nota

Si applica a: Machine Learning Studio (versione classica)

Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.

Panoramica del modulo

Questo articolo descrive come usare il modulo Enter Data Manually (Immettere manualmente i dati) in Machine Learning Studio (versione classica) per creare un set di dati di piccole dimensioni digitando i valori. Il set di dati può avere più colonne.

Questo modulo può essere utile in scenari come i seguenti:

  • Generazione di un piccolo set di valori per il test

  • Creazione di un breve elenco di etichette

  • Immissione di valori da usare in Applica operazione matematica

  • Specifica dei valori di sostituzione da usare in Sostituisci valori discreti

  • Digitazione di un elenco di nomi di colonna da inserire in un set di dati

Come usare l'immissione manuale dei dati

  1. Aggiungere il modulo Enter Data Manually all'esperimento. È possibile trovare questo modulo nella categoria Input e output dei dati in Machine Learning Studio (versione classica).

  2. Per DataFormat selezionare una delle opzioni seguenti. Queste opzioni determinano la modalità di analisi dei dati forniti. I requisiti per ogni formato variano notevolmente, quindi assicurarsi di leggere gli argomenti correlati.

    • ARFF. Formato del file di relazione tra attributi, usato da Weka. Per altre informazioni, vedere Convertire in ARFF.

    • CSV. Formato di valori delimitati da virgole. Per altre informazioni, vedere Convertire in CSV.

    • SVMLight. Formato usato da Vowpal Wabbit e altri framework di Machine Learning. Per altre informazioni, vedere Convertire in SVMLight.

    • TSV. Formato dei valori delimitati da tabulazioni. Per altre informazioni, vedere Convertire in TSV.

    Se si sceglie un formato e non si forniscono dati che soddisfano le specifiche di formato, si verifica un errore di run-time.

  3. Fare clic all'interno della casella di testo Dati per iniziare a immettere i dati. I formati seguenti richiedono particolare attenzione:

    • CSV: per creare più colonne, incollare testo delimitato da virgole o digitare più colonne usando virgole tra i campi.

      Se si seleziona l'opzione HasHeader , è possibile usare la prima riga di valori come intestazione di colonna.

      Se si deseleziona questa opzione, vengono usati i nomi delle colonne, Col1, Col2 e così via. È possibile aggiungere o modificare i nomi delle colonne in un secondo momento usando Modifica metadati.

    • TSV: per creare più colonne, incollare testo separato da tabulazioni o digitare più colonne usando tabulazioni tra i campi.

      Se si seleziona l'opzione HasHeader , è possibile usare la prima riga di valori come intestazione di colonna.

      Se si deseleziona questa opzione, vengono usati i nomi delle colonne, Col1, Col2 e così via. È possibile aggiungere o modificare i nomi delle colonne in un secondo momento usando Modifica metadati.

    • ARFF: incollare un file di formato ARFF esistente. Se si digitano direttamente i valori, assicurarsi di aggiungere l'intestazione facoltativa e i campi attributo obbligatori all'inizio dei dati.

      Ad esempio, le righe di intestazione e di attributo seguenti possono essere aggiunte a un elenco semplice. L'intestazione di colonna sarà SampleText.

      % Title: SampleText.ARFF  
      % Source: Enter Data module  
      @ATTRIBUTE SampleText STRING  
      @DATA  
      \<type first data row here>  
      
    • SVMLight: digitare o incollare i valori usando il formato SVMLight.

      L'esempio seguente, ad esempio, rappresenta le prime due righe del set di dati Disinfestazione del globo, in formato SVMight:

      # features are [Recency], [Frequency], [Monetary], [Time]  
      1 1:2 2:50 3:12500 4:98   
      1 1:0 2:13 3:3250 4:28   
      

      Quando si esegue il modulo Enter Data Manually , queste righe vengono convertite in un set di dati di colonne e valori di indice come indicato di seguito:

      Col1 Col2 Col3 Col4 Etichette
      0.00016 0.004 0.999961 0.00784 1
      0 0.004 0.999955 0.008615 1
  4. Premere INVIO dopo ogni riga per iniziare una nuova riga.

    Assicurarsi di premere INVIO dopo la riga finale.

    Se si preme INVIO più volte per aggiungere più righe finali vuote, la riga vuota finale viene rimossa, ma le altre righe vuote vengono considerate come valori mancanti.

    Se si creano righe con valori mancanti, è sempre possibile filtrarle in un secondo momento.

  5. Fare clic con il pulsante destro del mouse sul modulo e scegliere Esegui selezionato per analizzare i dati e caricarlo nell'area di lavoro come set di dati.

    Per visualizzare il set di dati, fare clic sulla porta di output e selezionare Visualizza.

Esempio

Per esempi di come viene usato questo modulo in Machine Learning, vedere il Azure AI Gallery:

  • Scaricare l'esempio di dati: ottiene i dati dal repository UCI Machine Learning e quindi usa Enter Data Manually (Immetti dati manualmente) per creare i nomi delle colonne. Viene fornito anche un codice R di esempio, che è possibile usare per unire le righe immesse con il set di dati.

Note tecniche

Questa sezione contiene informazioni dettagliate sull'implementazione, suggerimenti e risposte alle domande frequenti.

  • Indipendentemente dal formato salvato, i dati immessi vengono convertiti in modo implicito nel formato del set di dati (tabella dati) per l'uso negli esperimenti. Tuttavia, i dati non vengono salvati in modo permanente come set di dati salvato, a meno che non si scerti in modo esplicito l'opzione Salva come set di dati.

    Se non si salvano i dati in Immettere manualmente i dati come set di dati, vengono rimossi dalla cache dell'area di lavoro al termine della sessione. Tuttavia, è possibile eseguire di nuovo l'esperimento per rendere disponibili i dati.

  • Se si combinano i dati di Enter Data Manually con un altro set di dati, il set di dati combinato non può avere due colonne con lo stesso nome. Se sono presenti nomi di colonna duplicati, alla colonna viene aggiunto un suffisso numerico dal set di dati corretto per rendere univoci i nomi delle colonne.

    Si supponga, ad esempio, di avere due istanze di Enter Data Manually che contengono la colonna TestData e di usare il modulo Add Columns per unirle. La colonna dell'istanza sinistra di Enter Data Manually rimarrà TestData e la colonna dell'istanza destra di Enter Data Manually verrebbe rinominata TestData (2).

Vedi anche

Input e output dei dati
Elenco moduli A-Z