Dividere i dati usando Split Rows (Dividi righe)

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Questo articolo descrive come usare l'opzione Split Rows (Dividi righe) nel modulo Split Data (Dividi dati) di Machine Learning Studio (versione classica). Questa opzione è particolarmente utile quando è necessario dividere i set di dati usati per il training e il test, in modo casuale o in base ad alcuni criteri.

Nota

Si applica a: Machine Learning Studio (versione classica)

Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.

L'opzione Dividi righe supporta le divisioni casuali estratte. Ad esempio, è possibile specificare una divisione da 70 a 30 o una divisione da 10 a 90 con la variabile di destinazione equamente rappresentata in entrambi i set di dati.

Per informazioni generali sul partizionamento dei dati per gli esperimenti di Machine Learning, vedere Dividere dati e partizionare e dividere.

Altre opzioni nel modulo Split Data (Dividi dati) supportano diversi modi per dividere i dati:

Dividere un set di dati in due gruppi

  1. Aggiungere il modulo Split Data (Divisione dati) all'esperimento in Studio (versione classica) e connettere il set di dati da dividere.

  2. Per Modalità di divisione scegliere Dividi righe.

  3. Frazione di righe nel primo set di dati di output. Usare questa opzione per determinare il numero di righe inserite nel primo output (a sinistra). Tutte le altre righe verranno inserite nel secondo output (a destra).

    Il rapporto rappresenta la percentuale di righe inviate al primo set di dati di output, pertanto è necessario digitare un numero decimale compreso tra 0 e 1.

    Ad esempio, se si digita 0,75 come valore, il set di dati viene suddiviso con un rapporto 75:25, per cui il 75% delle righe viene inviato al primo set di dati di output e il 25% al secondo set di dati di output.

  4. Selezionare l'opzione Suddivisione casuale se si vuole selezionare in modo casuale i dati nei due gruppi. Questa è l'opzione preferita quando si creano set di dati di training e di test.

  5. Valore di inizializzazione casuale: digitare un valore intero non negativo per inizializzare la sequenza pseudocasuale di istanze da usare. Questo valore di inizializzazione predefinito viene usato in tutti i moduli che generano numeri casuali.

    Se si specifica un valore di seeding, i risultati sono generalmente riproducibili. Se è necessario ripetere i risultati di un'operazione di divisione, è necessario specificare un valore di seed per il generatore di numeri casuali. In caso contrario, il valore di inizializzazione casuale viene impostato automaticamente su 0, per cui il valore di inizializzazione iniziale viene ottenuto dal clock di sistema. Di conseguenza, la distribuzione dei dati può differire leggermente ogni volta che si esegue una suddivisione.

  6. Suddivisione Stratified: impostare questa opzione su True per assicurarsi che i due set di dati di output contengano un campione rappresentativo dei valori nella colonna strata o nella colonna chiave di stratificazione.

    Con il campionamento stratificato, i dati vengono divisi in modo che ogni set di dati di output oserciti approssimativamente la stessa percentuale di ogni valore di destinazione. Ad esempio, è possibile assicurarsi che i set di training e di test siano approssimativamente bilanciati rispetto al risultato o a un'altra colonna, ad esempio il sesso.

  7. Eseguire l'esperimento oppure fare clic con il pulsante destro del mouse sul modulo e scegliere Esegui selezionato.

Esempio

Gli esempi seguenti illustrano come eseguire semplici divisioni usando la modalità Dividi righe.

Dividi in due parti uguali

Aggiungere il modulo Split Data (Dividi dati) dopo il set di dati senza altre modifiche. Per impostazione predefinita, il modulo suddivide il set di dati in due parti uguali. Per i dati con un numero dispari di righe, il resto viene incluso nel secondo output.

Dividi in terzi

Si supponga di voler suddividere un set di dati in due parti, con un terzo dei dati usati per il training e il resto per i test o divisioni aggiuntive.

A tale scopo, aggiungere un modulo Split Data (Dividi dati) e impostare Fraction of rows in the first output (Frazione di righe nel primo output) su 0,33. Il secondo output conterrà i due terzi restanti.

Per dividere il secondo output in parti uguali, aggiungere un'altra istanza del modulo Split Data (Divisione dati) e questa volta usare il valore predefinito per una divisione da 50 a 50.

Note tecniche

Questa sezione contiene informazioni dettagliate sull'implementazione, suggerimenti e risposte alle domande frequenti.

Dettagli dell'implementazione

  • Questo modulo richiede che il set di dati contenga almeno due righe. In caso contrario, viene generato un errore.

  • Se si usa l'opzione per specificare il numero desiderato di righe, il numero specificato deve essere un numero intero positivo e deve essere inferiore al numero totale di righe nel set di dati.

  • Tutti i valori percentuali devono essere nell'intervallo 0 e 1.

  • Se si specifica un numero o una percentuale come numero a virgola mobile minore di uno e non si usa il simbolo di percentuale (%), il numero viene interpretato come valore proporzionale.

Requisiti aggiuntivi per il campionamento stratificato

  • La colonna strata può contenere solo dati nominali o categorici. Se la colonna contiene dati numerici continui, viene generato un messaggio di errore.

  • Una colonna con troppi valori univoci non è un candidato ideale per la stratificazione. È possibile provare a comprimere alcune categorie o a raggruppare i valori in anticipo.

Vedi anche

Sample eSplitPartition e Sample