Dividere un set di dati usando un'espressione relativa

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Questo articolo descrive come usare l'opzione Divisione espressioni relative nel modulo Split Data di Machine Learning Studio (versione classica). Questa opzione è utile quando è necessario dividere un set di dati in set di dati di training e test usando un'espressione numerica. Ad esempio:

  • Età maggiore di 40 vs. 40 o più giovani
  • Punteggio di test pari a 60 o superiore rispetto a 60
  • Valore di classificazione 1 vs. tutti gli altri valori

Nota

Si applica a: Solo Machine Learning Studio (versione classica)

I moduli di trascinamento e rilascio simili sono disponibili nella finestra di progettazione di Azure Machine Learning.

Per dividere i dati, scegliere una singola colonna numerica nei dati e definire un'espressione da usare per valutare ogni riga. L'espressione relativa deve includere il nome della colonna, il valore e un operatore, ad esempio maggiore e minore di, uguale e non uguale.

Questa opzione divide il set di dati in due gruppi.

Per informazioni generali sul partizionamento dei dati per gli esperimenti di Machine Learning, vedere Divisione dati e partizione e suddivisione.

Altre opzioni nel modulo Split Data :Other options in the Split Data module:

Usare un'espressione relativa per dividere un set di dati

  1. Aggiungere il modulo Split Data all'esperimento in Stuio e connetterlo come input al set di dati da dividere.

  2. Per Modalità di divisione selezionare suddivisione dell'espressione relativa.

  3. Nella casella di testo Espressione relazionale digitare un'espressione che esegue un'operazione di confronto numerico in una singola colonna:

    • La colonna contiene numeri di qualsiasi tipo di dati numerico, inclusi i tipi di dati data/ora.

    • L'espressione può fare riferimento a un massimo di un nome di colonna.

    • Usare il carattere amperand (&) per l'operazione AND e usare il carattere della pipe (|) per l'operazione OR.

    • Gli operatori seguenti sono supportati: <>, <=, >=, , , ==!=

    • Non è possibile raggruppare le operazioni usando ( e ).

    Per le idee, vedere la sezione Esempi .

  4. Eseguire l'esperimento oppure fare clic con il pulsante destro del mouse sul modulo e selezionare Esegui selezionato.

    L'espressione divide il set di dati in due set di righe: righe con valori che soddisfano la condizione e tutte le righe rimanenti.

    Se è necessario eseguire operazioni di divisione aggiuntive, è possibile aggiungere una seconda istanza di *Split Data o usare il modulo Applica trasformazione SQL e definire un'istruzione CASE.

Esempi di espressioni relatve

Gli esempi seguenti illustrano come dividere un set di dati usando l'opzione Espressione relativa nel modulo Split Data :

Uso dell'anno di calendario

Uno scenario comune consiste nel dividere un set di dati in base agli anni. L'espressione seguente seleziona tutte le righe in cui i valori della colonna Year sono maggiori di 2010.

\"Year" > 2010

L'espressione data deve tenere conto di tutte le parti di data incluse nella colonna dati e il formato delle date nella colonna dati deve essere coerente.

Ad esempio, in una colonna di data usando il formato mmddyyyy, l'espressione deve essere simile alla seguente:

\"Date" > 1/1/2010

Uso di indici di colonna

La seguente espressione illustra come usare l'indice di colonna per selezionare tutte le righe della prima colonna del set di dati che contengono valori minori o uguali a 30, ma non uguali a 20.

(\0)<=30 & !=20

Operazione composta sui valori di tempo usando più suddivisioni

Si supponga di voler suddividere una tabella di dati di log per raggruppare le query la cui esecuzione richiede troppo tempo. È possibile usare l'espressione relativa seguente nella colonna , , Elapsedper ottenere le query eseguite più di 1 minuto.

\"Elapsed" >00:01:00

Per ottenere le query con tempi di risposta inferiori a un minuto, ma più di 30 secondi, aggiungere un'altra istanza di Split Data nell'output destro e usare un'espressione simile al seguente:

\"Elapsed" <:00:01:00 & >00:00:30

Suddividere il set di dati sui valori di data

L'espressione relativa seguente divide il set di dati usando i valori di data nella colonna dt1.

\"dt1" > 10-08-2015

Le righe con una data maggiore di 10-08-2015 vengono aggiunte al primo set di dati di output (a sinistra).

Le righe con una data di 10-08-2015 o versioni precedenti vengono aggiunte al secondo set di dati di output (a destra).

Note tecniche

Questa sezione contiene i dettagli, i suggerimenti e le risposte all'implementazione alle domande frequenti.

Restrizioni

Le restrizioni seguenti si applicano alle espressioni relative in un set di dati:

  • Le espressioni relative possono essere applicate solo ai tipi di dati numerici e ai tipi di dati data/ora.
  • Le espressioni relative possono fare riferimento a un massimo di un nome di colonna.
  • Usare il carattere amperand (&) per l'operazione AND e il carattere della pipe (|) per l'operazione OR.
  • Gli operatori seguenti sono consentiti per espressioni relative: <, ><=>=, , ==!=
  • Le operazioni di raggruppamento con parentesi non sono supportate.

Vedi anche

Sample and Split
Partition and Sample (Crea partizioni ed esegui campionamenti)