Convert to Indicator Values (Converti in valori indicatore)

Questo articolo descrive un componente della finestra di progettazione di Azure Machine Learning.

Usare il componente Converti in valori indicatore nella finestra di progettazione di Azure Machine Learning per convertire le colonne contenenti valori categorici in una serie di colonne di indicatori binari.

L'operazione Converti in valori indicatore consente la conversione di dati categorici in valori di indicatore rappresentati da valori binari o multipli. Questo processo è uno dei passaggi di pre-elaborazione dei dati spesso usati per i modelli di classificazione.

Questo componente restituisce anche una definizione della trasformazione usata per la conversione in valori di indicatore. È possibile riutilizzare questa trasformazione in altri set di dati con lo stesso schema usando il componente Applica trasformazione .

Come configurare Convert to Indicator Values

  1. Trovare Converti in valori indicatore e trascinarlo nella bozza della pipeline. È possibile trovare questo componente nella categoria Trasformazione dati.

    Nota

    È possibile utilizzare il componente Modifica metadati prima del componente Converti in valori indiciator per contrassegnare le colonne di destinazione come categorico.

  2. Connettere il componente Converti in valori indicatore al set di dati contenente le colonne da convertire.

  3. Selezionare Modifica colonna per scegliere una o più colonne categorica.

  4. Selezionare l'opzione Sovrascrivi colonne categorica se si desidera restituire solo le nuove colonne booleane. Per impostazione predefinita, questa opzione è impostata su OFF.

    Suggerimento

    Se si sceglie l'opzione da sovrascrivere, la colonna di origine non viene effettivamente eliminata o modificata. Le nuove colonne vengono invece generate e presentate nel set di dati di output e la colonna di origine rimane disponibile nell'area di lavoro. Se è necessario visualizzare i dati originali, è possibile usare il componente Aggiungi colonne in qualsiasi momento per aggiungere nuovamente la colonna di origine.

  5. Inviare la pipeline.

Risultati

Si supponga di avere una colonna con punteggi che indicano se un server ha una probabilità elevata, media o bassa di errore.

ID del server Punteggio di errore
10301 Basso
10302 Medio
10303 Alto

Quando si applica Convert to Indicator Values, la finestra di progettazione converte una singola colonna di etichette in più colonne contenenti valori booleani:

ID del server Punteggio di errore - Basso Punteggio di errore - Medio Punteggio di errore - Alto
10301 1 0 0
10302 0 1 0
10303 0 0 1

Ecco come funziona la conversione:

  • Nella colonna Punteggio di errore che descrive il rischio sono presenti solo tre valori possibili (Alto, Medio e Basso) e non sono presenti valori mancanti. Vengono quindi create esattamente tre nuove colonne.

  • Le nuove colonne dell'indicatore vengono denominate in base alle intestazioni di colonna e ai valori della colonna di origine, usando questo modello: <valore> dei dati della colonna>< di origine.

  • Deve essere presente un valore 1 in una sola colonna indicatore e 0 in tutte le altre colonne dell'indicatore, perché ogni server può avere una sola classificazione di rischio.

È ora possibile usare le tre colonne dell'indicatore come funzionalità in un modello di Machine Learning.

Il componente restituisce due output:

  • Set di dati dei risultati: set di dati con valori di indicatore convertiti. Anche le colonne non selezionate per la pulizia vengono "passate".
  • Trasformazione dei valori degli indicatori: trasformazione dei dati usata per la conversione in valori di indicatore, che possono essere salvati nell'area di lavoro e applicati ai nuovi dati in un secondo momento.

Applicare un'operazione di valori indicatore salvati ai nuovi dati

Se è necessario ripetere spesso le operazioni sui valori degli indicatori, è possibile salvare i passaggi di manipolazione dei dati come trasformazione per riutilizzarli con lo stesso set di dati. Ciò è utile se è necessario reimportare e quindi pulire i dati con lo stesso schema.

  1. Aggiungere il componente Applica trasformazione alla pipeline.

  2. Aggiungere il set di dati da pulire e connettere il set di dati alla porta di input di destra.

  3. Espandere il gruppo Trasformazione dati nel riquadro sinistro della finestra di progettazione. Individuare la trasformazione salvata e trascinarla nella pipeline.

  4. Connettere la trasformazione salvata alla porta di input sinistra della trasformazione Applica.

    Quando si applica una trasformazione salvata, non è possibile selezionare le colonne da trasformare. Ciò è dovuto al fatto che la trasformazione è stata definita e si applica automaticamente ai tipi di dati specificati nell'operazione originale.

  5. Inviare la pipeline.

Note tecniche

Questa sezione contiene informazioni dettagliate sull'implementazione, suggerimenti e risposte alle domande frequenti.

Suggerimenti per l'uso

  • Solo le colonne contrassegnate come categoriche possono essere convertite in colonne indicatore. Se viene visualizzato l'errore seguente, è probabile che una delle colonne selezionate non sia categorica:

    Errore 0056: la colonna con nome <> colonna non è in una categoria consentita.

    Per impostazione predefinita, la maggior parte delle colonne stringa viene gestita come funzionalità di stringa, pertanto è necessario contrassegnarle in modo esplicito come categoriche usando Modifica metadati.

  • Non esiste alcun limite al numero di colonne che è possibile convertire in colonne indicatore. Tuttavia, poiché ogni colonna di valori può produrre più colonne di indicatori, è possibile convertire ed esaminare solo alcune colonne alla volta.

  • Se la colonna contiene valori mancanti, viene creata una colonna indicatore separata per la categoria mancante, con questo nome: <colonna> di origine- Mancante

  • Se la colonna che si converte in valori di indicatore contiene numeri, deve essere contrassegnata come categorica come qualsiasi altra colonna di funzionalità. Al termine, i numeri vengono considerati come valori discreti. Ad esempio, se si dispone di una colonna numerica con valori DI VALORE DI BASE compresi tra 25 e 30, verrà creata una nuova colonna indicatore per ogni valore discreto:

    Creazione Autostrada del -25 Autostrada del -26 Autostrada del -27 Autostrada del -28 Autostrada del -29 Autostrada del -30
    Contoso Cars 0 0 0 0 0 1
  • Per evitare di aggiungere troppe dimensioni al set di dati. È consigliabile prima controllare il numero di valori nella colonna e bin o quantizzare i dati in modo appropriato.

Passaggi successivi

Vedere il set di componenti disponibili per Azure Machine Learning.