Ritagliare valori

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Rileva outlier e clip o ne sostituisce i valori

Categoria: Trasformazione/Scalabilità e riduzione dei dati

Nota

Si applica a: Machine Learning Studio (versione classica)

Moduli di trascinamento della selezione simili sono disponibili nella finestra Azure Machine Learning progettazione.

Panoramica del modulo

Questo articolo descrive come usare il modulo Clip Values in Machine Learning Studio (versione classica) per identificare e sostituire facoltativamente valori di dati superiori o inferiori a una soglia specificata. Ciò è utile quando si vogliono rimuovere gli outlier o sostituirli con una media, una costante o un altro valore sostitutivo.

Connettere il modulo a un set di dati con i numeri da ritagliare, scegliere le colonne da usare e quindi impostare una soglia o un intervallo di valori e un metodo di sostituzione. Il modulo può visualizzare solo i risultati o i valori modificati aggiunti al set di dati originale.

Come configurare i valori delle clip

Prima di iniziare, identificare le colonne da ritagliare e il metodo da usare. È consigliabile testare prima qualsiasi metodo di ritaglio in un piccolo subset di dati.

Il modulo applica gli stessi criteri e lo stesso metodo di sostituzione a tutte le colonne incluse nella selezione. Assicurarsi quindi di escludere le colonne che non si desidera modificare.

Se è necessario applicare metodi di ritaglio o criteri diversi ad alcune colonne, è necessario usare una nuova istanza di Valori clip per ogni set di colonne simili.

  1. Aggiungere il modulo Clip Values all'esperimento e connetterlo al set di dati da modificare. È possibile trovare questo modulo in Trasformazione dati, nella categoria Scala e riduzione.

  2. In Elenco di colonne usare il selettore di colonna per scegliere le colonne a cui verranno applicati i valori clip.

  3. Per Set of thresholds (Set di soglie) scegliere una delle opzioni seguenti nell'elenco a discesa. Queste opzioni determinano come impostare i limiti superiore e inferiore per i valori accettabili e i valori che devono essere ritagliati.

    • ClipPeaks: quando si ritagliano i valori in base ai picchi, si specifica solo un limite superiore. I valori maggiori di tale valore limite vengono sostituiti o rimossi.

    • ClipSubpeaks: quando si ritagliano i valori in base ai picchi secondari, si specifica solo un limite inferiore. I valori minori di tale valore limite vengono sostituiti o rimossi.

    • ClipPeaksAndSubpeaks: quando si ritagliano i valori in base ai picchi e ai picchi secondari, è possibile specificare sia i limiti superiore che quello inferiore. I valori esterni a tale intervallo vengono sostituiti o rimossi. I valori che corrispondono ai valori limite non vengono modificati.

  4. A seconda della selezione effettuata nel passaggio precedente, è possibile impostare i valori soglia seguenti:

    • Soglia inferiore: visualizzata solo se si sceglie ClipSubPeaks
    • Soglia superiore: visualizzata solo se si sceglie ClipPeaks
    • Soglia: visualizzata solo se si sceglie ClipPeaksAndSubPeaks

    Per ogni tipo di soglia scegliere Costante o Percentile.

  5. Se si seleziona Costante, digitare il valore massimo o minimo nella casella di testo. Si supponga, ad esempio, di sapere che il valore 999 è stato usato come valore segnaposto. È possibile scegliere Costante per la soglia superiore e digitare 999 in Valore costante della soglia superiore.

  6. Se si sceglie Percentile, si vincolano i valori di colonna a un intervallo percentile.

    Si supponga, ad esempio, di voler mantenere solo i valori nell'intervallo da 10 a 80 percentile e sostituire tutti gli altri. Scegliere Percentile e quindi digitare 10 per Valore percentile della soglia inferiore e digitare 80 per Valore percentile della soglia superiore.

    Per alcuni esempi su come usare intervalli percentili, vedere la sezione relativa ai percentili.

  7. Definire un valore sostitutivo.

    I numeri che corrispondono esattamente ai limiti appena specificati vengono considerati all'interno dell'intervallo consentito di valori e pertanto non vengono sostituiti o rimossi. Tutti i numeri che non rientrano nell'intervallo specificato vengono sostituiti con il valore sostitutivo.

    • Valore sostitutivo per picchi: definisce il valore da sostituire con tutti i valori di colonna maggiori della soglia specificata.
    • Valore sostitutivo per sottopeaks: definisce il valore da usare come sostituzione di tutti i valori di colonna inferiori alla soglia specificata.
    • Se si usa l'opzione ClipPeaksAndSubpeaks , è possibile specificare valori di sostituzione separati per i valori ritagliati superiore e inferiore.

    Sono supportati i valori di sostituzione seguenti:

    • Soglia: sostituisce i valori ritagliati con il valore soglia specificato.

    • Media: sostituisce i valori ritagliati con la media dei valori di colonna. La media viene calcolata prima che i valori siano ritagliati.

    • Mediana: sostituisce i valori ritagliati con la mediana dei valori di colonna. La mediana viene calcolata prima che i valori siano ritagliati.

    • Mancante. Sostituisce i valori ritagliati con il valore mancante (vuoto).

  8. Aggiungi colonne indicatore: selezionare questa opzione se si vuole generare una nuova colonna che indica se l'operazione di ritaglio specificata applicata ai dati in tale riga è o meno impostata. Questa opzione è particolarmente utile quando si testa un nuovo set di valori di ritaglio e sostituzione.

  9. Flag di sovrascrittura: indicare la modalità di generazione dei nuovi valori. Per impostazione predefinita, Clip Values costruisce una nuova colonna con i valori di picco ritagliati alla soglia desiderata. I nuovi valori sovrascrivono la colonna originale.

    Per mantenere la colonna originale e aggiungere una nuova colonna con i valori ritagliati, deselezionare questa opzione.

  10. Eseguire l'esperimento.

    Fare clic con il pulsante destro del mouse sull'output del modulo Clip Values (Valori clip) e selezionare Visualize ( Visualizza) per esaminare i valori e assicurarsi che l'operazione di ritaglio soddivise le aspettative.

Esempio

Per informazioni sull'uso di questo modulo negli esperimenti di Machine Learning, vedere l'Azure AI Gallery:

  • Outlier di Forest Fire: questo esempio del couse EdX in data science illustra i metodi di ritaglio usando il set di dati di esempio Forest Fires.

Ritaglio con percentili

Per comprendere il funzionamento dell'operazione di taglio con i percentili, prendere in considerazione un set di dati con 10 righe, contenenti ognuna un'istanza dei valori da 1 a 10.

  • Se si usa il percentile come soglia superiore, impostando un valore pari al 90° percentile, il 90% di tutti i valori nel set di dati deve essere minore di tale valore.

  • Se si usa il percentile come soglia inferiore, impostando un valore pari al 10° percentile, il 10% di tutti i valori nel set di dati deve essere minore di tale valore.

  1. Per Set di soglie scegliere ClipPeaksAndSubPeaks.

  2. Per Soglia superiore scegliere Percentile e per Numero percentile digitare 90.

  3. Per Valore sostitutivo superiore scegliere Valore mancante.

  4. Per Lower threshold scegliere Percentile e per Percentile number digitare 10.

  5. Per Valore sostitutivo inferiore scegliere Valore mancante.

  6. Deselezionare l'opzione Sovrascrivi flag e selezionare l'opzione Aggiungi colonna indicatore.

Ora provare lo stesso esperimento usando 60 come soglia percentile superiore e 30 come soglia percentile inferiore e usare il valore di soglia come valore di sostituzione. La tabella seguente confronta questi due risultati:

  1. Sostituire con valore mancante; Soglia superiore = 90; Soglia inferiore = 10

  2. Sostituire con soglia; Percentile superiore = 60; Percentile inferiore = 30

Dati originali Sostituire con valore mancante Sostituire con soglia
1

2

3

4

5

6

7

8

9

10
TRUE

true

3, FALSE

4, FALSE

5, FALSE

6, FALSE

7, FALSE

8, FALSE

9, FALSE

true
4, TRUE

4, TRUE

4, TRUE

4, TRUE

5, FALSE

6, FALSE

7, TRUE

7, TRUE

7, TRUE

7, TRUE

Note tecniche

  • È possibile usare i valori clip solo nelle colonne contenenti numeri o valori di data/ora.

  • Se si includono colonne contenenti dati di testo o categorici, le colonne verranno ignorate.

  • I valori mancanti vengono ignorati quando per una colonna viene calcolato il valore medio o mediano.

  • Clip Values non supporta i dati ordinali.

  • I valori mancanti non vengono modificati quando vengono propagati al set di dati di output. La colonna che indica i valori tagliati contiene sempre FALSE per i valori mancanti.

Input previsti

Nome Tipo Descrizione
Set di dati Tabella dati Set di dati di input

Parametri del modulo

Nome Intervallo Type Predefinito Descrizione
Add indicator columns VERO/FALSO Boolean FALSE Se aggiungere un indicatore per il ritaglio di un valore viene eseguito
Valore costante per la soglia inferiore any Float -1 Valore al di sotto del quale verranno ritagliati i sottopeak
Valore costante per la soglia superiore any Float 1 Valore al di sopra del quale verranno ritagliati i picchi
Valore costante della soglia inferiore any Float -1 Valore al di sotto del quale vengono ritagliati i sottopeak
Valore costante della soglia superiore >=1 Float 1 Valore al di sopra del quale vengono ritagliati i picchi
Elenco delle colonne ColumnSelection Elenco di colonne da ritagliare
Lower substitute value Soglia

Media

Mediana

Missing
SubstituteValues Soglia Valore usato per ritagliare i sottopeak
Lower threshold Costante

Percentile
Modalità soglia Costante Valore al di sotto del quale verrà ritagliata la sottopea
Flag di sovrascrittura VERO/FALSO Boolean true Indica se le colonne di dati ritagliate devono sovrascrivere le colonne di dati di input
Numero percentile per la soglia inferiore [1;99] Integer 1 Numero percentile al di sotto del quale verranno ritagliati i sottopecchi
Numero percentile per la soglia superiore [1;99] Integer 99 Numero percentile al di sopra del quale verranno ritagliati i picchi
Numero percentile della soglia inferiore [1;99] Integer 1 Numero percentile al di sotto del quale vengono ritagliati i sottopecchi
Numero percentile della soglia superiore [1;99] Integer 99 Numero percentile sopra il quale vengono ritagliati i picchi
Set of thresholds ClipPeaks

ClipSubPeaks

ClipPeaksAndSubPeaks
Set di soglie ClipPeaks Specifica il tipo di soglia da usare
Valore sostitutivo per i picchi Soglia

Media

Mediana

Missing
SubstituteValues Soglia Valore usato durante i picchi di ritaglio
Valore sostitutivo per i picchi secondari Soglia

Media

Mediana

Missing
SubstituteValues Soglia Valore usato durante il ritaglio dei sottopeak
Soglia Costante

Percentile
Modalità soglia Costante Valore al di sopra e al di sotto del quale i picchi verranno ritagliati in modalità ritagliata
Upper substitute value Soglia

Media

Mediana

Missing
Soglia Soglia Valore usato per i picchi di ritaglio
Upper threshold Costante

Percentile
Modalità soglia Costante Valore al di sopra del quale i picchi verranno ritagliati in modalità ritagliata

Output

Nome Tipo Descrizione
Set di dati di risultati Tabella dati Set di dati con colonne tagliate

Eccezioni

Eccezione Descrizione
Errore 0011 L'eccezione si verifica se l'argomento passato per il set di colonne non è applicabile ad alcuna colonna del set di dati.
Errore 0017 Si verifica un'eccezione se il tipo di una o più colonne specificate non è supportato dal modulo attuale.

Per un elenco degli errori specifici dei moduli di Studio (versione classica), vedere Machine Learning codici di errore.

Per un elenco delle eccezioni API, vedere Machine Learning di errore dell'API REST.

Vedi anche

Scale and Reduce
Elenco moduli A-Z