Ritagliare valori
Importante
Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.
A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).
- Vedere leinformazioni sullo spostamento di progetti di Machine Learning da ML Studio (versione classica) ad Azure Machine Learning.
- Altre informazioni sulle Azure Machine Learning.
La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.
Rileva outlier e clip o ne sostituisce i valori
Categoria: Trasformazione/Scalabilità e riduzione dei dati
Nota
Si applica a: Machine Learning Studio (versione classica)
Moduli di trascinamento della selezione simili sono disponibili nella finestra Azure Machine Learning progettazione.
Panoramica del modulo
Questo articolo descrive come usare il modulo Clip Values in Machine Learning Studio (versione classica) per identificare e sostituire facoltativamente valori di dati superiori o inferiori a una soglia specificata. Ciò è utile quando si vogliono rimuovere gli outlier o sostituirli con una media, una costante o un altro valore sostitutivo.
Connettere il modulo a un set di dati con i numeri da ritagliare, scegliere le colonne da usare e quindi impostare una soglia o un intervallo di valori e un metodo di sostituzione. Il modulo può visualizzare solo i risultati o i valori modificati aggiunti al set di dati originale.
Come configurare i valori delle clip
Prima di iniziare, identificare le colonne da ritagliare e il metodo da usare. È consigliabile testare prima qualsiasi metodo di ritaglio in un piccolo subset di dati.
Il modulo applica gli stessi criteri e lo stesso metodo di sostituzione a tutte le colonne incluse nella selezione. Assicurarsi quindi di escludere le colonne che non si desidera modificare.
Se è necessario applicare metodi di ritaglio o criteri diversi ad alcune colonne, è necessario usare una nuova istanza di Valori clip per ogni set di colonne simili.
Aggiungere il modulo Clip Values all'esperimento e connetterlo al set di dati da modificare. È possibile trovare questo modulo in Trasformazione dati, nella categoria Scala e riduzione.
In Elenco di colonne usare il selettore di colonna per scegliere le colonne a cui verranno applicati i valori clip.
Per Set of thresholds (Set di soglie) scegliere una delle opzioni seguenti nell'elenco a discesa. Queste opzioni determinano come impostare i limiti superiore e inferiore per i valori accettabili e i valori che devono essere ritagliati.
ClipPeaks: quando si ritagliano i valori in base ai picchi, si specifica solo un limite superiore. I valori maggiori di tale valore limite vengono sostituiti o rimossi.
ClipSubpeaks: quando si ritagliano i valori in base ai picchi secondari, si specifica solo un limite inferiore. I valori minori di tale valore limite vengono sostituiti o rimossi.
ClipPeaksAndSubpeaks: quando si ritagliano i valori in base ai picchi e ai picchi secondari, è possibile specificare sia i limiti superiore che quello inferiore. I valori esterni a tale intervallo vengono sostituiti o rimossi. I valori che corrispondono ai valori limite non vengono modificati.
A seconda della selezione effettuata nel passaggio precedente, è possibile impostare i valori soglia seguenti:
- Soglia inferiore: visualizzata solo se si sceglie ClipSubPeaks
- Soglia superiore: visualizzata solo se si sceglie ClipPeaks
- Soglia: visualizzata solo se si sceglie ClipPeaksAndSubPeaks
Per ogni tipo di soglia scegliere Costante o Percentile.
Se si seleziona Costante, digitare il valore massimo o minimo nella casella di testo. Si supponga, ad esempio, di sapere che il valore 999 è stato usato come valore segnaposto. È possibile scegliere Costante per la soglia superiore e digitare 999 in Valore costante della soglia superiore.
Se si sceglie Percentile, si vincolano i valori di colonna a un intervallo percentile.
Si supponga, ad esempio, di voler mantenere solo i valori nell'intervallo da 10 a 80 percentile e sostituire tutti gli altri. Scegliere Percentile e quindi digitare 10 per Valore percentile della soglia inferiore e digitare 80 per Valore percentile della soglia superiore.
Per alcuni esempi su come usare intervalli percentili, vedere la sezione relativa ai percentili.
Definire un valore sostitutivo.
I numeri che corrispondono esattamente ai limiti appena specificati vengono considerati all'interno dell'intervallo consentito di valori e pertanto non vengono sostituiti o rimossi. Tutti i numeri che non rientrano nell'intervallo specificato vengono sostituiti con il valore sostitutivo.
- Valore sostitutivo per picchi: definisce il valore da sostituire con tutti i valori di colonna maggiori della soglia specificata.
- Valore sostitutivo per sottopeaks: definisce il valore da usare come sostituzione di tutti i valori di colonna inferiori alla soglia specificata.
- Se si usa l'opzione ClipPeaksAndSubpeaks , è possibile specificare valori di sostituzione separati per i valori ritagliati superiore e inferiore.
Sono supportati i valori di sostituzione seguenti:
Soglia: sostituisce i valori ritagliati con il valore soglia specificato.
Media: sostituisce i valori ritagliati con la media dei valori di colonna. La media viene calcolata prima che i valori siano ritagliati.
Mediana: sostituisce i valori ritagliati con la mediana dei valori di colonna. La mediana viene calcolata prima che i valori siano ritagliati.
Mancante. Sostituisce i valori ritagliati con il valore mancante (vuoto).
Aggiungi colonne indicatore: selezionare questa opzione se si vuole generare una nuova colonna che indica se l'operazione di ritaglio specificata applicata ai dati in tale riga è o meno impostata. Questa opzione è particolarmente utile quando si testa un nuovo set di valori di ritaglio e sostituzione.
Flag di sovrascrittura: indicare la modalità di generazione dei nuovi valori. Per impostazione predefinita, Clip Values costruisce una nuova colonna con i valori di picco ritagliati alla soglia desiderata. I nuovi valori sovrascrivono la colonna originale.
Per mantenere la colonna originale e aggiungere una nuova colonna con i valori ritagliati, deselezionare questa opzione.
Eseguire l'esperimento.
Fare clic con il pulsante destro del mouse sull'output del modulo Clip Values (Valori clip) e selezionare Visualize ( Visualizza) per esaminare i valori e assicurarsi che l'operazione di ritaglio soddivise le aspettative.
Esempio
Per informazioni sull'uso di questo modulo negli esperimenti di Machine Learning, vedere l'Azure AI Gallery:
- Outlier di Forest Fire: questo esempio del couse EdX in data science illustra i metodi di ritaglio usando il set di dati di esempio Forest Fires.
Ritaglio con percentili
Per comprendere il funzionamento dell'operazione di taglio con i percentili, prendere in considerazione un set di dati con 10 righe, contenenti ognuna un'istanza dei valori da 1 a 10.
Se si usa il percentile come soglia superiore, impostando un valore pari al 90° percentile, il 90% di tutti i valori nel set di dati deve essere minore di tale valore.
Se si usa il percentile come soglia inferiore, impostando un valore pari al 10° percentile, il 10% di tutti i valori nel set di dati deve essere minore di tale valore.
Per Set di soglie scegliere ClipPeaksAndSubPeaks.
Per Soglia superiore scegliere Percentile e per Numero percentile digitare 90.
Per Valore sostitutivo superiore scegliere Valore mancante.
Per Lower threshold scegliere Percentile e per Percentile number digitare 10.
Per Valore sostitutivo inferiore scegliere Valore mancante.
Deselezionare l'opzione Sovrascrivi flag e selezionare l'opzione Aggiungi colonna indicatore.
Ora provare lo stesso esperimento usando 60 come soglia percentile superiore e 30 come soglia percentile inferiore e usare il valore di soglia come valore di sostituzione. La tabella seguente confronta questi due risultati:
Sostituire con valore mancante; Soglia superiore = 90; Soglia inferiore = 10
Sostituire con soglia; Percentile superiore = 60; Percentile inferiore = 30
Dati originali | Sostituire con valore mancante | Sostituire con soglia |
---|---|---|
1 2 3 4 5 6 7 8 9 10 |
TRUE true 3, FALSE 4, FALSE 5, FALSE 6, FALSE 7, FALSE 8, FALSE 9, FALSE true |
4, TRUE 4, TRUE 4, TRUE 4, TRUE 5, FALSE 6, FALSE 7, TRUE 7, TRUE 7, TRUE 7, TRUE |
Note tecniche
È possibile usare i valori clip solo nelle colonne contenenti numeri o valori di data/ora.
Se si includono colonne contenenti dati di testo o categorici, le colonne verranno ignorate.
I valori mancanti vengono ignorati quando per una colonna viene calcolato il valore medio o mediano.
Clip Values non supporta i dati ordinali.
I valori mancanti non vengono modificati quando vengono propagati al set di dati di output. La colonna che indica i valori tagliati contiene sempre FALSE per i valori mancanti.
Input previsti
Nome | Tipo | Descrizione |
---|---|---|
Set di dati | Tabella dati | Set di dati di input |
Parametri del modulo
Nome | Intervallo | Type | Predefinito | Descrizione |
---|---|---|---|---|
Add indicator columns | VERO/FALSO | Boolean | FALSE | Se aggiungere un indicatore per il ritaglio di un valore viene eseguito |
Valore costante per la soglia inferiore | any | Float | -1 | Valore al di sotto del quale verranno ritagliati i sottopeak |
Valore costante per la soglia superiore | any | Float | 1 | Valore al di sopra del quale verranno ritagliati i picchi |
Valore costante della soglia inferiore | any | Float | -1 | Valore al di sotto del quale vengono ritagliati i sottopeak |
Valore costante della soglia superiore | >=1 | Float | 1 | Valore al di sopra del quale vengono ritagliati i picchi |
Elenco delle colonne | ColumnSelection | Elenco di colonne da ritagliare | ||
Lower substitute value | Soglia Media Mediana Missing |
SubstituteValues | Soglia | Valore usato per ritagliare i sottopeak |
Lower threshold | Costante Percentile |
Modalità soglia | Costante | Valore al di sotto del quale verrà ritagliata la sottopea |
Flag di sovrascrittura | VERO/FALSO | Boolean | true | Indica se le colonne di dati ritagliate devono sovrascrivere le colonne di dati di input |
Numero percentile per la soglia inferiore | [1;99] | Integer | 1 | Numero percentile al di sotto del quale verranno ritagliati i sottopecchi |
Numero percentile per la soglia superiore | [1;99] | Integer | 99 | Numero percentile al di sopra del quale verranno ritagliati i picchi |
Numero percentile della soglia inferiore | [1;99] | Integer | 1 | Numero percentile al di sotto del quale vengono ritagliati i sottopecchi |
Numero percentile della soglia superiore | [1;99] | Integer | 99 | Numero percentile sopra il quale vengono ritagliati i picchi |
Set of thresholds | ClipPeaks ClipSubPeaks ClipPeaksAndSubPeaks |
Set di soglie | ClipPeaks | Specifica il tipo di soglia da usare |
Valore sostitutivo per i picchi | Soglia Media Mediana Missing |
SubstituteValues | Soglia | Valore usato durante i picchi di ritaglio |
Valore sostitutivo per i picchi secondari | Soglia Media Mediana Missing |
SubstituteValues | Soglia | Valore usato durante il ritaglio dei sottopeak |
Soglia | Costante Percentile |
Modalità soglia | Costante | Valore al di sopra e al di sotto del quale i picchi verranno ritagliati in modalità ritagliata |
Upper substitute value | Soglia Media Mediana Missing |
Soglia | Soglia | Valore usato per i picchi di ritaglio |
Upper threshold | Costante Percentile |
Modalità soglia | Costante | Valore al di sopra del quale i picchi verranno ritagliati in modalità ritagliata |
Output
Nome | Tipo | Descrizione |
---|---|---|
Set di dati di risultati | Tabella dati | Set di dati con colonne tagliate |
Eccezioni
Eccezione | Descrizione |
---|---|
Errore 0011 | L'eccezione si verifica se l'argomento passato per il set di colonne non è applicabile ad alcuna colonna del set di dati. |
Errore 0017 | Si verifica un'eccezione se il tipo di una o più colonne specificate non è supportato dal modulo attuale. |
Per un elenco degli errori specifici dei moduli di Studio (versione classica), vedere Machine Learning codici di errore.
Per un elenco delle eccezioni API, vedere Machine Learning di errore dell'API REST.