Clip Values (Ritaglia valori)

Questo articolo descrive un componente della finestra di progettazione di Azure Machine Learning.

Utilizzare il componente Clip Values per identificare e sostituire facoltativamente i valori di dati superiori o inferiori a una soglia specificata con una media, una costante o un altro valore sostitutivo.

Connettere il componente a un set di dati con i numeri da ritagliare, scegliere le colonne da utilizzare e quindi impostare una soglia o un intervallo di valori e un metodo di sostituzione. Il componente può restituire solo i risultati o i valori modificati aggiunti al set di dati originale.

Come configurare i valori clip

Prima di iniziare, identificare le colonne da ritagliare e il metodo da usare. È consigliabile testare prima qualsiasi metodo di ritaglio su un piccolo subset di dati.

Il componente applica gli stessi criteri e metodo di sostituzione a tutte le colonne incluse nella selezione. Assicurarsi quindi di escludere colonne che non si desidera modificare.

Se è necessario applicare metodi di ritaglio o criteri diversi ad alcune colonne, è necessario utilizzare una nuova istanza di Valori clip per ogni set di colonne simili.

  1. Aggiungere il componente Clip Values alla pipeline e connetterlo al set di dati da modificare. È possibile trovare questo componente in Trasformazione dati nella categoria Scalabilità e riduzione.

  2. In Elenco di colonne usare il selettore di colonna per scegliere le colonne a cui verranno applicati i valori di ritaglio.

  3. Per Set of thresholds (Imposta soglie), scegliere una delle opzioni seguenti nell'elenco a discesa. Queste opzioni determinano come impostare i limiti superiori e inferiori per valori accettabili e valori che devono essere ritagliati.

    • ClipPeaks: quando si ritagliano i valori in base ai picchi, si specifica solo un limite superiore. I valori maggiori di tale valore limite vengono sostituiti.

    • ClipSubpeaks: quando si ritagliano i valori in base agli indici secondari, si specifica solo un limite inferiore. I valori minori di tale valore limite vengono sostituiti.

    • ClipPeaksAndSubpeaks: quando si ritagliano i valori in base a picchi e indici secondari, è possibile specificare sia i limiti superiore che inferiore. I valori non compresi nell'intervallo vengono sostituiti. I valori che corrispondono ai valori limite non vengono modificati.

  4. A seconda della selezione nel passaggio precedente, è possibile impostare i valori di soglia seguenti:

    • Soglia inferiore: visualizzata solo se si sceglie ClipSubPeaks
    • Soglia superiore: visualizzata solo se si sceglie ClipPeaks
    • Soglia: visualizzata solo se si sceglie ClipPeaksAndSubPeaks

    Per ogni tipo di soglia scegliere Costante o Percentile.

  5. Se si seleziona Costante, digitare il valore massimo o minimo nella casella di testo. Si supponga, ad esempio, di conoscere il valore 999 usato come valore segnaposto. È possibile scegliere Costante per la soglia superiore e digitare 999 in Valore costante per la soglia superiore.

  6. Se si sceglie Percentile, si vincolano i valori di colonna a un intervallo percentile.

    Si supponga, ad esempio, di voler mantenere solo i valori nell'intervallo di 10-80 percentile e sostituire tutti gli altri. Scegliere Percentile e quindi digitare 10 per Valore percentile per soglia inferiore e digitare 80 per Valore percentile per soglia superiore.

    Vedere la sezione sui percentili per alcuni esempi di come usare intervalli percentili .

  7. Definire un valore sostitutivo.

    I numeri che corrispondono esattamente ai limiti specificati vengono considerati all'interno dell'intervallo di valori consentiti e pertanto non vengono sostituiti. Tutti i numeri che non rientrano nell'intervallo specificato vengono sostituiti con il valore sostitutivo.

    • Sostituire il valore per i picchi: definisce il valore da sostituire con tutti i valori di colonna maggiori della soglia specificata.
    • Sostituire il valore per gli indici secondari: definisce il valore da usare come sostituto di tutti i valori di colonna minori della soglia specificata.
    • Se si usa l'opzione ClipPeaksAndSubpeaks , è possibile specificare valori di sostituzione separati per i valori ritagliati superiore e inferiore.

    Sono supportati i valori di sostituzione seguenti:

    • Soglia: sostituisce i valori ritagliati con il valore soglia specificato.

    • Media: sostituisce i valori ritagliati con la media dei valori di colonna. La media viene calcolata prima che i valori vengano ritagliati.

    • Median: sostituisce i valori ritagliati con la median dei valori di colonna. La median viene calcolata prima che i valori vengano ritagliati.

    • Mancante. Sostituisce i valori ritagliati con il valore mancante (vuoto).

  8. Aggiungi colonne indicatore: selezionare questa opzione se si desidera generare una nuova colonna che indica se l'operazione di ritaglio specificata è stata applicata ai dati in tale riga. Questa opzione è utile quando si sta testando un nuovo set di valori di ritaglio e sostituzione.

  9. Flag di sovrascrittura: indicare la modalità di generazione dei nuovi valori. Per impostazione predefinita, Clip Values costruisce una nuova colonna con i valori di picco ritagliati alla soglia desiderata. I nuovi valori sovrascrivono la colonna originale.

    Per mantenere la colonna originale e aggiungere una nuova colonna con i valori ritagliati, deselezionare questa opzione.

  10. Inviare la pipeline.

    Fare clic con il pulsante destro del mouse sul componente Clip Values e selezionare Visualizza o selezionare il componente e passare alla scheda Output nel pannello destro, fare clic sull'icona dell'istogramma negli output delle porte per esaminare i valori e assicurarsi che l'operazione di ritaglio soddisfi le aspettative.

Esempi di ritaglio con percentili

Per comprendere il funzionamento del ritaglio in base ai percentili, prendere in considerazione un set di dati con 10 righe, che hanno un'istanza di ognuno dei valori 1-10.

  • Se si usa percentile come soglia superiore, al valore per il 90° percentile, il 90% di tutti i valori nel set di dati deve essere minore di tale valore.

  • Se si usa percentile come soglia inferiore, al valore per il 10° percentile, il 10% di tutti i valori nel set di dati deve essere minore di tale valore.

  1. Per Set of thresholds (Set of thresholds) scegliere ClipPeaksAndSubPeaks (ClipPeaksAndSubPeaks).

  2. Per Soglia superiore scegliere Percentile e per Numero percentile digitare 90.

  3. Per Valore sostitutivo superiore scegliere Valore mancante.

  4. Per Soglia inferiore scegliere Percentile e per Numero percentile digitare 10.

  5. Per Valore sostitutivo inferiore scegliere Valore mancante.

  6. Deselezionare l'opzione Sovrascrivi flag e selezionare l'opzione Aggiungi colonna indicatore.

Provare ora la stessa pipeline usando 60 come soglia percentile superiore e 30 come soglia percentile inferiore e usare il valore soglia come valore di sostituzione. La tabella seguente confronta questi due risultati:

  1. Sostituire con mancante; Soglia superiore = 90; Soglia inferiore = 20

  2. Sostituire con soglia; Percentile superiore = 60; Percentile inferiore = 40

Dati originali Sostituire con mancante Sostituire con soglia
1

2

3

4

5

6

7

8

9

10
TRUE

TRUE

3, FALSE

4, FALSE

5, FALSE

6, FALSE

7, FALSE

8, FALSE

9, FALSE

TRUE
4, VERO

4, VERO

4, VERO

4, VERO

5, FALSE

6, FALSE

7, VERO

7, VERO

7, VERO

7, VERO

Passaggi successivi

Vedere il set di componenti disponibili per Azure Machine Learning.