Replace Discrete Values

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Sostituisce i valori discreti di una colonna con i valori numerici basati su un'altra colonna

Categoria: Funzioni statistiche

Nota

Si applica a: Machine Learning Studio (versione classica)

Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.

Panoramica del modulo

Questo articolo descrive come usare il modulo Sostituisci valori discreti in Machine Learning Studio (versione classica) per generare un punteggio di probabilità che può essere usato per rappresentare un valore discreto. Questo punteggio può essere utile per comprendere il valore delle informazioni dei valori discreti.

Come funziona:

Selezionare una colonna contenente il valore discreto (o categorico) e quindi selezionare un'altra colonna da usare come riferimento.

A seconda che la seconda colonna sia categorica o non categorica, il modulo calcola uno dei valori seguenti:

  • Probabilità condizionale per la seconda colonna in base ai valori nella prima colonna.
  • Deviazionemedia e standard per ogni gruppo di valori nella prima colonna.

Il modulo restituisce sia un set di dati con i punteggi che una funzione che è possibile salvare e applicare ad altri set di dati.

Come configurare Sostituisci valori discreti

Suggerimento

È consigliabile usare una sola coppia di colonne alla volta. Il modulo non genera un errore se si selezionano più colonne da analizzare. Tuttavia, in pratica, se si scelgono più colonne, viene trovata una corrispondenza con un'euristica interna, non in base all'ordine di selezione.

È pertanto consigliabile selezionare una singola coppia di colonne ogni volta, una per le colonne discrete e una per le colonne di sostituzione.

Se è necessario generare punteggi per più colonne, usare istanze separate di Sostituisci valori discreti.

  1. Aggiungere il modulo Replace Discrete Values (Sostituisci valori discreti) all'esperimento. È possibile trovare questo modulo nel gruppo Funzioni statistiche nell'elenco degli elementi dell'esperimento in Machine Learning Studio (versione classica).

  2. Connessione un set di dati contenente almeno una colonna di dati categorici.

  3. Colonne discrete: fare clic su Avvia selettore di colonna per scegliere una colonna che contenga valori discreti (o categorici).

    Le colonne discrete selezionate devono essere categoriche. Se si verifica un errore, usare il modulo Edit Metadata (Modifica metadati) per modificare il tipo di colonna.

  4. Colonne di sostituzione: fare clic su Avvia selettore di colonna per scegliere la colonna contenente i valori da usare nel calcolo di un punteggio di sostituzione.

    Se si selezionano più colonne per Colonne discrete, è necessario scegliere un numero uguale di colonne sostitutive.

  5. Eseguire l'esperimento.

    Nota

    Non è possibile scegliere la funzione statistica da applicare. Il modulo calcola una misura appropriata, in base al tipo di dati della colonna selezionata per Colonna di sostituzione.

Risultati

Il modulo calcola uno dei valori seguenti per ogni coppia di colonne:

  • Se la seconda colonna contiene valori categorici, il modulo calcola la probabilità condizionale della seconda colonna, dati i valori nella prima colonna.

    Si supponga, ad esempio, di aver scelto occupation il set di dati Census come colonna discreta e di gender scegliere come colonna sostitutiva. L'output del modulo sarà il seguente:

    P(gender | occupation)

  • Se la seconda colonna contiene valori non categorici che possono essere convertiti in numeri (ad esempio valori numerici o booleani non contrassegnati come categorici), il modulo restituisce la deviazione media e standard per ogni gruppo di valori nella prima colonna.

    Si supponga, ad esempio, di occupation usare come colonna Discrete e che l'altra colonna sia la colonna numerica hours-per-week. Il modulo restituisce questi nuovi valori:

    Mean(hours-per-week | occupation)

    Std-Dev(hours-per-week | occupation)

Oltre ai punteggi di probabilità, il modulo restituisce anche un set di dati trasformato. In questo set di dati la colonna selezionata come colonne Replacement viene sostituita con una colonna contenente i punteggi calcolati.

Suggerimento

Le colonne nel set di dati di origine non vengono effettivamente modificate o eliminate dall'operazione. Le colonne di punteggio sono nuove generate dal modulo e dall'output anziché dai dati di origine.

Per visualizzare i valori di origine insieme ai punteggi di probabilità, usare il modulo Aggiungi colonne.

Esempio

L'utilizzo di Sostituisci valori discreti può essere illustrato da alcuni semplici esempi.

Esempio 1 - Sostituire un valore categorico con un punteggio di probabilità

La tabella seguente contiene una colonna X categorica e una colonna Y con valori True/False gestiti come valori categorici. Quando si usa Sostituisci valori discreti, viene calcolato un punteggio di probabilità condizionale per la probabilità di Y data X, come illustrato nella terza colonna.

X S P(Y|X)
Blu 0 P(Y=0|X=Blue) = 0.5
Blu 1 P(Y=1|X=Blue) = 0.5
Green 0 P(Y=0|X=Green) = 2/3
Green 0 P(Y=0|X=Green) = 2/3
Green 1 P(Y=1|X=Green) = 1/3
Rosso 0 P(Y=0|X=Red) = .75
Rosso 0 P(Y=0|X=Red) = .75
Red 1 P(Y=1|X=Red) = .25
Rosso 0 P(Y=0|X=Red) = .75

Esempio 2 - Calcolare la deviazione media e standard in base a una colonna non di categoria

Quando la seconda colonna è numerica, Sostituisci valori discreti calcola la deviazione media e standard anziché un punteggio di probabilità condizionale.

L'esempio seguente è basato sul set di dati di esempio Auto Prices , semplificato come segue:

  • È stato selezionato un piccolo subset di colonne.

  • Sono state estratte solo le prime 30 righe, usando l'opzione Head del modulo Partition and Sample .

  • Il modulo Replace Discrete Values (Sostituisci valori discreti) è stato usato per calcolare la deviazione media e standard per il peso del veicolo. data la colonna categorica, num-of-doors.

Nella tabella seguente vengono illustrati i risultati:

Corpo Num-of-doors Curb-weight Mean(curb-weight|num-of-doors) Std-Dev(curb-weight|num-of-doors)
std two 2548 2429.785714 507.45699
std four 2337 2625.6 493.409877
std two 2507 2429.785714 507.45699
turbo four 3086 2625.6 5 493.409877
std four 1989 2625.6 493.409877
turbo 2191
std four 2535 2625.6 493.409877

È possibile verificare la media per ogni gruppo di valori usando la funzione AVERAGEIF in Excel.

Esempio 3 - Gestione dei valori mancanti

Questo esempio illustra come i valori mancanti (valori Null) vengono propagati ai risultati quando vengono calcolati i punteggi di probabilità condizionale.

  • Se la colonna di valori discreti e la colonna di ricerca per il calcolo contengono alcuni valori mancanti, questi verranno propagati alla nuova colonna.

  • Se la colonna di valori discreti contiene solo valori mancanti, il modulo non è in grado di elaborare la colonna e viene visualizzato un errore.

X S P(Y|X)
1 True P(Y=true|X=1) = 1/2
1 False P(Y=false|X=1) = 1/2
2 Vero P(Y=true|X=2) = 1/3
2 False P(Y=false|X=2) = 1/3
2 Null P(Y=null|X=2) = null

Note tecniche

  • È necessario assicurarsi che tutte le colonne discrete da sostituire siano categoriche. In caso contrario, il modulo restituirà un errore. A tale scopo, usare il modulo Modifica metadati.

  • Se la seconda colonna contiene valori booleani, i valori True-False vengono elaborati come valori numerici, con FALSE e TRUE equivalenti rispettivamente a 0 e 1.

  • La formula nella colonna della deviazione standard calcola la deviazione standard della popolazione. Di conseguenza, N viene usato nel denominatore anziché (N - 1).

  • Se la seconda colonna contiene dati non di categoria (valori numerici o booleani), il modulo calcola la deviazione media e standard di Y per il valore specificato di X.

    Ciò significa che per ogni riga del set di dati indicizzato da i:

    Mean(Y│X)i = Mean(Y│X = Xi)

    StdDev(Y│X)i = StdDev(Y│X = Xi)

  • Se la seconda colonna contiene dati categorici o valori non numerici né booleani, il modulo calcola la probabilità condizionale di Y per il valore specificato di X.

  • Tutti i valori booleani nella seconda colonna vengono elaborati come dati numerici, con FALSE e TRUE equivalenti rispettivamente a 0 e 1.

  • Se la colonna discreta include una classe, in modo che nella seconda colonna sia presente una riga con un valore vuoto, la somma delle probabilità condizionali all'interno della classe sarà minore di uno.

Input previsti

Nome Tipo Descrizione
Set di dati Tabella dati Set di dati di input

Parametri del modulo

Nome Intervallo Type Predefinito Descrizione
Colonne discrete Qualsiasi ColumnSelection Seleziona le colonne che contengono valori discreti
Replacement columns Qualsiasi ColumnSelection Seleziona le colonne che contengono i dati da usare al posto dei valori discreti

Output

Nome Tipo Descrizione
Set di dati integrati Tabella dati Set di dati con i dati sostituiti
Funzione di trasformazione Interfaccia ITransform Definizione della funzione di trasformazione che può essere applicata ad altri set di dati

Eccezioni

Eccezione Descrizione
Errore 0001 Si verifica un'eccezione se non è possibile trovare una o più colonne specificate del set di dati.
Errore 0003 L'eccezione si verifica se uno o più input sono null o vuoti.
Errore 0020 Si verifica un'eccezione se il numero di colonne in alcuni set di dati passati al modulo è troppo piccolo.
Errore 0021 Si verifica un'eccezione se il numero di righe in alcuni set di dati passati al modulo è troppo piccolo.
Errore 0017 Si verifica un'eccezione se il tipo di una o più colonne specificate non è supportato dal modulo attuale.
Errore 0026 Si verifica un'eccezione se non sono consentite colonne con lo stesso nome.
Errore 0022 Si verifica un'eccezione se il numero di colonne selezionate nel set di dati di input non corrisponde al numero previsto.

Per un elenco di errori specifici dei moduli di Studio (versione classica), vedere l'Machine Learning codici di errore.

Per un elenco delle eccezioni API, vedere l'Machine Learning di errore dell'API REST.

Vedi anche

Funzioni statistiche