Creare partizioni ed eseguire campionamenti
Importante
Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.
A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).
- Vedere leinformazioni sullo spostamento di progetti di Machine Learning da ML Studio (versione classica) ad Azure Machine Learning.
- Altre informazioni sulle Azure Machine Learning.
La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.
Crea più partizioni di un set di dati in base al campionamento
Categoria: Trasformazione dei dati/Esempio e Divisione
Nota
Si applica a: Machine Learning Studio (versione classica)
Moduli di trascinamento della selezione simili sono disponibili nella finestra Azure Machine Learning progettazione.
Panoramica del modulo
Questo articolo descrive come usare il modulo Partizione e esempio in Machine Learning Studio (versione classica), per eseguire il campionamento in un set di dati o per creare partizioni dal set di dati.
Il campionamento è uno strumento importante di Machine Learning perché consente di ridurre le dimensioni di un set di dati, mantenendo lo stesso rapporto di valori. Questo modulo supporta diverse attività correlate importanti in Machine Learning:
Divisione dei dati in più sottosezioni delle stesse dimensioni.
È possibile usare le partizioni per la convalida incrociata o per assegnare case a gruppi casuali.
Separazione dei dati in gruppi e quindi uso dei dati da un gruppo specifico.
Dopo l'assegnazione casuale di case a gruppi diversi, potrebbe essere necessario modificare le funzionalità associate a un solo gruppo.
Campionamento.
È possibile estrarre una percentuale dei dati, applicare il campionamento casuale o scegliere una colonna da usare per bilanciare il set di dati ed eseguire il campionamento astratto sui relativi valori.
Creazione di un set di dati più piccolo per il test.
Se si dispone di molti dati, è possibile usare solo le prime n righe durante la configurazione dell'esperimento e quindi passare all'uso del set di dati completo quando si compila il modello. È anche possibile usare il campionamento per creare un set di dati più piccolo da usare nello sviluppo.
Come configurare la partizione e l'esempio
Questo modulo supporta più metodi per dividere i dati in partizioni o per il campionamento. Scegliere prima il metodo e quindi impostare opzioni aggiuntive richieste dal metodo .
- Ottenere il primo numero di righe
Ottenere le prime N righe da un set di dati
Usare questa modalità per ottenere soltanto le prime n righe. Questa opzione è utile se si vuole testare un esperimento su un numero ridotto di righe e non è necessario bilanciare o campionare i dati in alcun modo.
Aggiungere il modulo Partizione ed esempio all'esperimento in Studio (versione classica) e connettere il set di dati.
Modalità di partizione o di esempio: impostare questa opzione su Head.
Numero di righe da selezionare: digitare il numero di righe da restituire.
Il numero di righe specificato deve essere un numero intero non negativo. Se il numero di righe selezionate è maggiore del numero di righe nel set di dati, viene restituito l'intero set di dati.
Eseguire l'esperimento.
Il modulo restituisce un singolo set di dati contenente solo il numero specificato di righe. Le righe vengono sempre lette dall'inizio del set di dati.
Creare un esempio di dati
Questa opzione supporta il campionamento casuale semplice o il campionamento casuale astratto. Ciò è utile se si vuole creare un set di dati di esempio rappresentativo più piccolo per i test.
Aggiungere il modulo Partizione ed esempio all'esperimento in Studio (versione classica) e connettere il set di dati.
Modalità di partizione o di campionamento: impostare questa opzione su Campionamento.
Frequenza di campionamento: digitare un valore compreso tra 0 e 1. questo valore specifica la percentuale di righe del set di dati di origine da includere nel set di dati di output.
Ad esempio, se si vuole solo la metà del set di dati originale,
0.5
digitare per indicare che la frequenza di campionamento deve essere del 50%.Le righe del set di dati di input vengono rimescolate e inserite in modo selettivo nel set di dati di output, in base al rapporto specificato.
Valore di seed casuale per il campionamento: facoltativamente, digitare un numero intero da usare come valore di seed.
Questa opzione è importante se si vuole dividere le righe nello stesso modo ogni volta. Il valore predefinito è 0, ovvero viene generato un valore di avviarsi in base all'orologio di sistema. Ciò può comportare risultati leggermente diversi ogni volta che si esegue l'esperimento.
Suddivisione astratto per il campionamento: selezionare questa opzione se è importante che le righe del set di dati siano suddivise in modo uniforme per una colonna chiave prima del campionamento.
Per Colonna chiave di stratificazione per il campionamento, selezionare una singola colonna a più strati da usare per la divisione del set di dati. Le righe del set di dati vengono quindi suddivise come segue:
Tutte le righe di input vengono raggruppate (stratificate) in base ai valori nella colonna di livello specificato.
Le righe vengono mescolate all'interno di ogni gruppo.
Ogni gruppo viene aggiunto selettivamente al set di dati di output per soddisfare il rapporto specificato.
Per altre informazioni sul campionamento stratificato, vedere la sezione Note tecniche.
Eseguire l'esperimento.
Con questa opzione, il modulo restituisce un singolo set di dati contenente un campionamento rappresentativo dei dati.
La parte rimanente non campionata del set di dati non viene restituita. È tuttavia possibile creare join sui set di dati usando il modulo Applica SQL trasformazione per determinare le righe non utilizzate.
Suddividere i dati in partizioni
Usare questa opzione quando si vuole dividere il set di dati in subset dei dati. Questa opzione è utile anche quando si vuole creare un numero personalizzato di ripiegamenti per la convalida incrociata o per suddividere le righe in più gruppi.
Aggiungere il modulo Partizione ed esempio all'esperimento in Studio (versione classica) e connettere il set di dati.
Per Modalità di partizione o di esempio selezionare Assegna a ripiegamenti.
Usa sostituzione nel partizionamento: selezionare questa opzione se si vuole che la riga campionata sia inserita nuovamente nel pool di righe per un potenziale riutilizzo. Di conseguenza, la stessa riga potrebbe essere assegnata a più fold.
Se non si usa la sostituzione (opzione predefinita), la riga campionata non viene inserita nuovamente nel pool di righe per un potenziale riutilizzo. Di conseguenza, ogni riga può essere assegnata a una sola ripiega.
Suddivisione casuale: selezionare questa opzione se si desidera che le righe siano assegnate in modo casuale alle ripiegazioni.
Se non si seleziona questa opzione, le righe vengono assegnate alle ripiegazioni usando il metodo round robin.
Valore di seed casuale: facoltativamente, digitare un numero intero da usare come valore di seed. Questa opzione è importante se si vuole dividere le righe nello stesso modo ogni volta. In caso contrario, il valore predefinito 0 indica che verrà usato un valore di inizializzazione casuale.
Specificare il metodo del partitioner: indicare come si desidera che i dati siano apporti a ogni partizione usando queste opzioni:
Partiziona in modo uniforme: usare questa opzione per inserire un numero uguale di righe in ogni partizione. Per specificare il numero di partizioni di output, digitare un numero intero nella casella di testo Specificare il numero di ripartizioni da suddividere uniformemente in .
Partizione con proporzioni personalizzate: usare questa opzione per specificare le dimensioni di ogni partizione come elenco delimitato da virgole.
Ad esempio, se si vogliono creare tre partizioni, con la prima partizione contenente il 50% dei dati e le due partizioni rimanenti ognuna contenente il 25% dei dati, fare clic sulla casella di testo Elenco delle proporzioni separate da virgola e digitare questi numeri:
.5, .25, .25
La somma di tutte le dimensioni delle partizioni deve essere esattamente 1.
Se si immettono numeri che sommano un massimo di 1, viene creata una partizione aggiuntiva per contenere le righe rimanenti. Ad esempio, se si digitano i valori .2 e .3, viene creata una terza partizione che contiene il restante 50% di tutte le righe.
Se si immettono numeri che sommano fino a più di 1, viene generato un errore quando si esegue l'esperimento.
Suddivisione astratto: selezionare questa opzione se si vuole che le righe siano stratificate durante la divisione e quindi scegliere la colonna strata.
Per altre informazioni sul campionamento stratificato, vedere la sezione Note tecniche.
Eseguire l'esperimento.
Con questa opzione, il modulo restituisce più set di dati partizionati usando le regole specificate.
Usare i dati di una partizione predefinita
Questa opzione viene usata quando un set di dati è stato suddiviso in più partizioni e ora si vuole caricare ogni partizione a sua volta per un'ulteriore analisi o elaborazione.
Aggiungere il modulo Partition e Sample all'esperimento in Studio (versione classica).
Connessione nell'output di un'istanza precedente di Partition e Sample. Tale istanza deve aver usato l'opzione Assegna a folds per generare un certo numero di partizioni.
Partition or sample mode (Modalità partizione o campione): selezionare Pick Fold (Seleziona fold).
Specificare la parte da cui eseguire il campionamento: selezionare una partizione da usare digitandone l'indice. Gli indici di partizione sono in base 1. Ad esempio, se il set di dati è stato diviso in tre parti, le partizioni hanno gli indici 1, 2 e 3.
Se si digita un valore di indice non valido, viene generato un errore in fase di progettazione: "Errore 0018: Il set di dati contiene dati non validi".
Oltre a raggruppare il set di dati per fold, è possibile separare il set di dati in due gruppi: una destinazione e tutto il resto. A tale scopo, digitare l'indice di una singola parte e quindi selezionare l'opzione Pick complement of the selected fold (Seleziona complemento della parte selezionata) per ottenere tutti gli elementi, ad esempio i dati nella parte specificata.
Se si lavora con più partizioni, è necessario aggiungere altre istanze del modulo Partition e Sample per gestire ogni partizione.
Si supponga, ad esempio, che i pazienti precedentemente partizionati in cinque volte usando l'età. Per usare ogni singola descrizione, sono necessarie cinque copie del modulo Partition and Sample (Partizione e esempio) e in ognuna è necessario selezionare una parte diversa.
Suggerimento
L'esperimento di esempio Split Partition and Sample (Divisione partizione ed esempio) illustra questa tecnica.
Eseguire l'esperimento.
Con questa opzione, il modulo restituisce un singolo set di dati contenente solo le righe assegnate a tale fold.
Nota
Non è possibile visualizzare direttamente le designazioni di fold; sono presenti solo nei metadati.
Esempio
Per esempi di come viene usato questo modulo, vedere il Azure AI Gallery:
Convalida incrociata per la classificazione binaria: viene applicata una frequenza di campionamento del 20% per creare un set di dati campionato casualmente più piccolo. Il set di dati del censimento originale aveva più di 30.000 righe. Il set di dati campionato ha circa 6500.
Convalida incrociata per la regressione: i dati vengono assegnati in modo casuale e uniforme a cinque sezioni, senza stratificazione, e i risultati vengono usati per la convalida incrociata.
Split Partition and Sample (Divisione partizione e esempio): illustra diversi modi per usare il partizionamento e il campionamento. In primo luogo, l'opzione Assegna a folds viene usata per assegnare righe nel set di dati a uno dei tre gruppi con dimensioni uniforme. Vengono quindi aggiunte altre tre istanze di Partition e Sample usando la modalità Pick Fold per applicare operazioni a subset di dati
- Nella prima parte (indice 1), le righe vengono suddivise in modo casuale.
- Nella seconda fase (indice 2), le righe vengono suddivise per istruzione.
- Nella terza parte (indice di 3), le righe vengono suddivise in base all'età.
Note tecniche
La colonna di stratificazione deve essere categorica con valori discreti. Se la colonna non è già categorica e viene visualizzato un errore, usare Modifica metadati per modificare le proprietà della colonna.
La colonna strata specificata non può contenere dati continui, ad esempio dati numerici con valori a virgola mobile in ogni cella. In caso contrario, il modulo non può elaborare i dati e restituisce un errore.
Il motivo è che qualsiasi colonna usata per la stratificazione deve avere un set finito di valori possibili. Se la colonna degli attributi specificata contiene valori a virgola mobile e la colonna non è di tipo categorico, potenzialmente contiene un numero infinito di valori.
Se la colonna strata contiene valori booleani e si vuole che siano interpretati come categorici, è necessario usare il modulo Edit Metadata (Modifica metadati) per modificare l'etichetta dei metadati.
Se la colonna strata contiene dati di tipo stringa o numerici con troppi valori univoci, la colonna non è un candidato ideale per il campionamento stratificato.
Altre informazioni sul campionamento stratificato
Il campionamentostratificato garantisce che i subset di dati dispongono di un campionamento rappresentativo della colonna degli strata selezionata. Questa tecnica è utile, ad esempio, quando si desidera garantire che i dati di training contengano la stessa distribuzione di valori relativi all'età presente nei dati di test o viceversa. In uno studio clinico, ad esempio, è possibile usare la stratificazione nella colonna relativa al sesso dei partecipanti, in modo che, quando i dati vengono partizionati, i maschi e le femmine siano distribuiti uniformemente. La stratificazione garantisce che i rapporti dei valori selezionati vengono mantenuti.
È possibile specificare i valori in base ai quali separare i dati selezionando una singola colonna da utilizzare come colonna degli attributi.
Questo modulo richiede che la colonna strata sia una colonna categorica. Se per gli strati si desidera usare una colonna di valori integer, è consigliabile assegnare a tale colonna un tipo categorico. È possibile eseguire questa operazione tramite lo schema dei dati prima di aggiungerli a Machine Learning Studio (versione classica) oppure è possibile aggiornare i metadati della colonna usando Modifica metadati.
Le colonne con dati continui, ovvero dati numerici con valori a virgola mobile in ogni cella, non possono essere usate come colonne di strati. Se si verifica un errore, è possibile usare Raggruppa dati in contenitori per raggruppare i valori in intervalli discreti e quindi usare Modifica metadati per garantire che la colonna verrà considerata categorica.
Input previsti
Nome | Tipo | Descrizione |
---|---|---|
Set di dati | Tabella dati | Set di dati da suddividere |
Parametri del modulo
Nome | Intervallo | Type | Predefinito | Descrizione |
---|---|---|---|---|
Partition or sample mode | Elenco | Metodi di campionamento | campionamento | Selezionare la modalità di partizionamento o di campionamento |
Use replacement in the partitioning | Qualsiasi | Boolean | Falso | Indicare se le ritasci devono essere disgiunte (impostazione predefinita- nessuna sostituzione) o sovrapposte (true - usa sostituzione) |
Randomized split | Qualsiasi | Boolean | True | Indica se la divisione è casuale |
Random seed | Qualsiasi | Integer | 0 | Specificare un valore di inizializzazione per il generatore di numeri casuali |
Specify the partitioner method | Elenco | Metodi di partizione | Partition evenly | Selezionare Partizionamento uniforme per partizionare in ritarsi di dimensioni uguali o Partizione con proporzioni personalizzate da partizionare in ritarsi di dimensioni personalizzate |
Specify number of folds to split evenly into | >=1 | Integer | 5 | Selezionare un numero di partizioni in cui dividere |
Stratified split | Elenco | Tipo True/False | Falso | Indicare se la divisione è stratificata |
Stratification key column | Qualsiasi | ColumnSelection | Contiene la chiave di stratificazione | |
Elenco di proporzioni separate da virgola | Qualsiasi | string | Elencare le proporzioni, separate da virgole | |
Stratified split for customized fold assignment | Qualsiasi | Tipo True/False | Falso | Indica se la divisione è stratificata per le assegnazioni di sezione personalizzate |
Stratification key column for customized fold assignment | Qualsiasi | ColumnSelection | Contiene la chiave di stratificazione per le assegnazioni di sezioni personalizzate | |
Specify which fold to be sampled from | >=1 | Integer | 1 | Contiene l'indice della sezione da campionare |
Pick complement of the selected fold | Qualsiasi | Boolean | Falso | Selezionare il complemento della parte specificata |
Rate of sampling | Qualsiasi | Float | 0,01 | Scegliere una frequenza di campionamento |
Random seed for sampling | Qualsiasi | Integer | 0 | Specificare un valore di inizializzazione per il generatore di numeri casuali per il campionamento |
Stratified split for sampling | Qualsiasi | Vero/Falso | Falso | Indicare se la divisione è stratificata per il campionamento |
Stratification key column for sampling | Qualsiasi | ColumnSelection | Contiene la chiave di stratificazione per il campionamento | |
Number of rows to select | >=0 | Integer | 10 | Selezionare il numero massimo di record che sarà consentito passare al modulo successivo |
Output
Nome | Tipo | Descrizione |
---|---|---|
oDataset | Tabella dati | Set di dati risultante dalla suddivisione |
Vedi anche
Sample and Split
Dividere dati
Edit Metadata (Modifica metadati)
Group Data into Bins (Raggruppa dati in contenitori)