Dividere dati
Importante
Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.
A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).
- Vedere leinformazioni sullo spostamento di progetti di Machine Learning da ML Studio (versione classica) ad Azure Machine Learning.
- Altre informazioni sulle Azure Machine Learning.
La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.
Partiziona le righe di un set di dati in due set distinti
Categoria: Trasformazione dati/Campione e Suddivisione
Nota
Si applica a: Machine Learning Studio (versione classica)
Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.
Panoramica del modulo
Questo argomento descrive come usare il modulo Split Data (Divisione dati) in Machine Learning Studio (versione classica) per dividere un set di dati in due set distinti.
Questo modulo è particolarmente utile quando è necessario separare i dati in set di training e di test. È possibile personalizzare anche il modo in cui i dati vengono divisi. Alcune opzioni supportano la sequenza casuale dei dati. altri sono personalizzati per un determinato tipo di dati o modello.
Come configurare La divisione dei dati
Suggerimento
Prima di scegliere la modalità di suddivisione, leggere tutte le opzioni per determinare il tipo di suddivisione necessario. Se si modifica la modalità di suddivisione, è possibile reimpostare tutte le altre opzioni.
Aggiungere il modulo Split Data (Dividi dati) all'esperimento in Studio. È possibile trovare questo modulo in Data Transformation (Trasformazione dati) nella categoria Sample and Split (Esempio e divisione ).
Modalità di suddivisione: scegliere una delle modalità seguenti, a seconda del tipo di dati disponibili e della modalità di divisione. Ogni modalità di suddivisione ha opzioni diverse. Fare clic sui seguenti argomenti per istruzioni dettagliate ed esempi.
Dividi righe: usare questa opzione se si vogliono solo dividere i dati in due parti. È possibile specificare la percentuale di dati da inserire in ogni divisione, ma per impostazione predefinita i dati sono divisi da 50 a 50.
È anche possibile selezionare in modo casuale le righe in ogni gruppo e usare il campionamentostratificato. Nel campionamento stratificato è necessario selezionare una singola colonna di dati per cui si vuole che i valori siano equamente equamente tra i due set di dati dei risultati.
Suddivisione del sistema di raccomandazione: scegliere sempre questa opzione se si preparano i dati per l'uso in un sistema di raccomandazione. Consente di dividere i set di dati in gruppi di training e di test assicurando al tempo stesso che i valori importanti, ad esempio coppie utente-elemento o classificazioni, siano divisi uniformemente tra i gruppi.
Suddivisione di espressioni regolari: scegliere questa opzione quando si vuole dividere il set di dati testando una singola colonna per un valore.
Ad esempio, se si analizza il sentiment, è possibile verificare la presenza di un nome di prodotto specifico in un campo di testo e quindi dividere il set di dati in righe con il nome del prodotto di destinazione e quelli senza.
Divisione espressione relativa: usare questa opzione ogni volta che si vuole applicare una condizione a una colonna numerica. Il numero può essere un campo di data/ora, una colonna contenente gli importi di età o dollaro o anche una percentuale. Ad esempio, è possibile dividere il set di dati in base al costo degli elementi, raggruppare le persone per intervalli di età o separare i dati in base a una data del calendario.
Requisiti
La divisione dei dati può creare un massimo di due set di dati alla volta e tali set devono essere esclusivi.
Pertanto, se si dispone di una suddivisione complessa con più condizioni e output, potrebbe essere necessario concatenare più moduli split data .
In alternativa, è possibile usare un'istruzione CASE e il modulo Apply SQL Transformation.
Questo modulo non elimina i dati né lo rimuove dal set di dati. divide semplicemente i dati come specificato tra il primo e il secondo output del modulo.
La suddivisione dei dati per un sistema di raccomandazione comporta alcuni requisiti aggiuntivi. In generale, il set di dati può essere costituito solo da coppie utente-elemento o da triple di classificazione utente-elemento. Pertanto, il modulo Split Data (Dividi dati) non può funzionare su set di dati con più di tre colonne, per evitare confusione con i dati di tipo funzionalità. Se il set di dati contiene troppe colonne, è possibile che venga visualizzato questo errore:
Errore 0022: Il numero di colonne selezionate nel set di dati di input non è uguale a x
Come soluzione alternativa, è possibile usare Seleziona colonne nel set di dati per rimuovere alcune colonne e quindi aggiungere le colonne in un secondo momento usando Aggiungi colonne. In alternativa, se il set di dati ha molte funzionalità da usare nel modello, dividere il set di dati usando un'opzione diversa ed eseguire il training del modello usando Train Model (Training modello) anziché Train Matchbox Recommender (Strumento di raccomandazione Train Matchbox).
Esempio
Per esempi di come viene usato il modulo Split Data (Dividi dati), vedere l'Azure AI Gallery:
- Convalida incrociata per la classificazione binaria: set di dati per adulti: viene applicata una frequenza di campionamento del 20% per creare un set di dati campionato casualmente più piccolo. (il set di dati originale del censimento conteneva oltre 30.000 righe, contro le circa 6500 del set di dati di training). Il set di dati viene pulito per valori mancanti e quindi passato a cinque modelli diversi per il training e la convalida incrociata.
Note tecniche
I requisiti seguenti si applicano a tutti gli usi di Dividi dati:
- Il set di dati di input deve contenere almeno due righe oppure viene generato un errore.
- Se si usa l'opzione per specificare il numero desiderato di righe, il numero specificato deve essere un numero intero positivo e deve essere inferiore al numero totale di righe nel set di dati.
- Se si specifica un numero come percentuale o si usa una stringa contenente il carattere "%", il valore viene interpretato come una percentuale. Tutti i valori percentuali devono essere compresi nell'intervallo (0, 100), esclusi i valori 0 e 100.
- Se si specifica un numero o una percentuale che corrisponde a un numero a virgola mobile minore di uno e non si usa il simbolo di percentuale (%), il numero viene interpretato come un valore proporzionale.
- Se si usa l'opzione per una suddivisione stratificata, i set di dati di output possono essere ulteriormente divisi per sottogruppi, selezionando una colonna astratto.
Input previsti
Nome | Tipo | Descrizione |
---|---|---|
Set di dati | Tabella dati | Set di dati da suddividere |
Parametri del modulo
Nome | Tipo | Intervallo | Facoltativo | Descrizione | Predefinito |
---|---|---|---|---|---|
Splitting mode | Split mode | Dividi righe, Suddivisione raccomandazione, Espressione regolare o Espressione relativa | Necessario | Split Rows | Scegliere il metodo per la suddivisione del set di dati |
Output
Nome | Tipo | Descrizione |
---|---|---|
Set di dati di risultati 1 | Tabella dati | Set di dati contenente le righe selezionate |
Set di dati di risultati 2 | Tabella dati | Set di dati contenente tutte le altre righe |
Vedi anche
Sample and Split
Partition and Sample (Crea partizioni ed esegui campionamenti)
Elenco moduli A-Z