Select Columns in Dataset
Importante
Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.
A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).
- Vedere leinformazioni sullo spostamento di progetti di Machine Learning da ML Studio (versione classica) ad Azure Machine Learning.
- Altre informazioni sulle Azure Machine Learning.
La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.
Seleziona colonne da includere o escludere da un set di dati in un'operazione
Categoria: Trasformazione/Manipolazione dei dati
Nota
Si applica a: Machine Learning Studio (versione classica)
Moduli di trascinamento della selezione simili sono disponibili nella finestra Azure Machine Learning progettazione.
Panoramica del modulo
Questo articolo descrive come usare il modulo Seleziona colonne nel set di dati in Machine Learning Studio (versione classica) per scegliere un subset di colonne da usare nelle operazioni downstream. Il modulo non rimuove fisicamente le colonne dal set di dati di origine. al contrario, crea un subset di colonne, in modo simile a una vista di database o una proiezione.
Questo modulo è particolarmente utile quando è necessario limitare le colonne disponibili per un'operazione downstream o se si desidera ridurre le dimensioni del set di dati rimuovendo le colonne non necessarie.
Le colonne nel set di dati vengono restituite nello stesso ordine dei dati originali, anche se vengono specificate in un ordine diverso.
Come usare Seleziona colonne nel set di dati
Questo modulo non ha parametri. Usare il selettore di colonna per scegliere le colonne da includere o escludere.
Scegliere le colonne in base al nome
Nel modulo sono disponibili più opzioni per la scelta delle colonne in base al nome:
Filtrare e cercare
Fare clic sull'opzione BY NAME .
Se è stato connesso un set di dati già popolato, verrà visualizzato un elenco di colonne disponibili. Se non viene visualizzata alcuna colonna, potrebbe essere necessario eseguire moduli upstream per visualizzare l'elenco di colonne.
Per filtrare l'elenco, digitare nella casella di ricerca. Ad esempio, se si digita la lettera
w
nella casella di ricerca, l'elenco viene filtrato per visualizzare i nomi delle colonne che contengono la letteraw
.Selezionare le colonne e fare clic sul pulsante freccia destra per spostare le colonne selezionate nell'elenco nel riquadro di destra.
- Per selezionare un intervallo continuo di nomi di colonna, premere MAIUSC+clic.
- Per aggiungere singole colonne alla selezione, premere CTRL+CLIC.
Fare clic sul pulsante con il segno di spunta per salvare e chiudere.
Usare i nomi in combinazione con altre regole
Fare clic sull'opzione WITH RULES .
Scegliere una regola, ad esempio visualizzare le colonne di un tipo di dati specifico.
Fare quindi clic su singole colonne del tipo in base al nome per aggiungerle all'elenco di selezione.
Digitare o incollare un elenco delimitato da virgole di nomi di colonna
Se il set di dati è molto ampio, potrebbe essere più semplice usare indici o elenchi di nomi generati, anziché selezionare le colonne singolarmente. Supponendo di aver preparato l'elenco in anticipo:
- Fare clic sull'opzione WITH RULES .
- Selezionare Nessuna colonna, selezionare Includi e quindi fare clic all'interno della casella di testo con il punto esclamativo rosso.
- Incollare o digitare un elenco delimitato da virgole di nomi di colonna convalidati in precedenza. Non è possibile salvare il modulo se una colonna ha un nome non valido, quindi assicurarsi di controllare i nomi in anticipo.
È anche possibile usare questo metodo per specificare un elenco di colonne usando i relativi valori di indice. Per suggerimenti su come usare gli indici di colonna, vedere la sezione Esempi.
Scegliere per tipo
Se si usa l'opzione WITH RULES , è possibile applicare più condizioni alle selezioni di colonna. Ad esempio, potrebbe essere necessario ottenere solo colonne di funzionalità di un tipo di dati numerico.
L'opzione BEGIN WITH determina il punto di partenza ed è molto importante per comprendere i risultati.
Se si seleziona l'opzione TUTTE LE COLONNE , tutte le colonne vengono aggiunte all'elenco. È quindi necessario usare l'opzione Escludiper rimuovere le colonne che soddisfano determinate condizioni.
Ad esempio, è possibile iniziare con tutte le colonne e quindi rimuovere le colonne in base al nome o al tipo.
Se si seleziona l'opzione NO COLUMNS , l'elenco di colonne inizia vuoto. Specificare quindi le condizioni per aggiungere colonne all'elenco.
Se si applicano più regole, ogni condizione è additiva. Si supponga, ad esempio, di iniziare senza colonne e quindi di aggiungere una regola per ottenere tutte le colonne numeriche. Nel set di dati Automobile price (Prezzo automobile) il risultato è 16 colonne. Fare quindi clic sul segno + per aggiungere una nuova condizione e selezionare Includi tutte le funzionalità. Il set di dati risultante include tutte le colonne numeriche, oltre a tutte le colonne di funzionalità, incluse alcune colonne di funzionalità stringa.
Scegliere in base all'indice di colonna
L'indice di colonna fa riferimento all'ordine della colonna all'interno del set di dati originale.
- Le colonne sono numerate in sequenza a partire da 1.
- Per ottenere un intervallo di colonne, usare un trattino.
- Non sono consentite specifiche aperte,
1-
ad esempio o-3
. - I valori di indice duplicati (o nomi di colonna) non sono consentiti e potrebbero verificarsi errori.
Ad esempio, supponendo che il set di dati abbia almeno otto colonne, è possibile incollare uno degli esempi seguenti per restituire più colonne non contigue:
8,1-4,6
1,3-8
1,3-6,4
L'esempio finale non comporta un errore. restituisce tuttavia una singola istanza della colonna 4
.
Per altri suggerimenti sull'uso degli indici di colonna, vedere la sezione Esempi.
Modificare l'ordine delle colonne
L'opzione Consenti duplicati e mantieni l'ordine delle colonne nella selezione inizia con un elenco vuoto e aggiunge le colonne specificate in base al nome o all'indice. A differenza di altre opzioni, che restituiscono sempre colonne nell'"ordine naturale", questa opzione restituisce le colonne nell'ordine in cui vengono specificate o elencate.
In un set di dati con le colonne Col1, Col2, Col3 e Col4, ad esempio, è possibile invertire l'ordine delle colonne e lasciare la colonna 2, specificando uno degli elenchi seguenti:
Col4, Col3, Col1
4,3,1
Esempio
Per esempi su come usare Seleziona colonne nel set di dati, vedere questi esperimenti di esempio nella raccolta di modelli:
L'esempio di rilevamento del tumore al seno usa Seleziona colonne nel set di dati per rimuovere una colonna vuota finale, rimuovere una colonna con dati duplicati e proiettare set di training e test.
Nell'esempio di stima del ritardo del volo, l'opzione Seleziona colonne nel set di dati viene usata per escludere tutte le colonne di tipo stringa e per escludere le colonne in base al nome.
Nell'esempio Prediction of student performance (Stima delle prestazioni degli studenti) Select Columns in Dataset (Seleziona colonne nel set di dati) viene usato per ottenere tutte le funzionalità temporali ed escludere più colonne.
Nell'esempio Compare Regressors viene usato Select Columns in Dataset (Seleziona colonne nel set di dati) per escludere la colonna num-of-doors, perché è il tipo di dati errato per l'operazione matematica che segue.
Scenari comuni per la selezione di colonne
Gli esempi seguenti descrivono alcuni modi tipici in cui gli utenti applicano l'opzione Seleziona colonne nel set di dati in Machine Learning e forniscono alcuni suggerimenti su come selezionare le colonne:
Si vogliono rimuovere colonne di testo dal set di dati in modo da poter applicare un'operazione matematica a tutte le colonne numeriche.
Molte operazioni richiedono che nel set di dati siano presenti solo colonne numeriche. È possibile rimuovere temporaneamente le colonne che causano un errore, escludendo il testo e le colonne di categoria (numeri che rappresentano categorie discrete).
Fare clic su Avvia selettore di colonna.
Per Inizia con selezionare Tutte le colonne.
Selezionare l'opzione Escludi, selezionare il tipo di colonna e quindi selezionare Stringa.
Fare clic sul segno più (+) per aggiungere una nuova condizione.
Selezionare l'opzione Escludi, selezionare il tipo di colonna e quindi Categorical.
È necessario applicare la selezione delle funzionalità solo alle colonne delle funzionalità categoriche.
Se è necessario separare le colonne di un tipo simile, è possibile applicare più condizioni. Ad esempio, le funzionalità possono essere categoriche o numeriche, ma alcuni moduli di selezione delle funzionalità non consentono campi non numerici, quindi è prima necessario ottenere le funzionalità e quindi aggiungere una condizione per ottenere solo le funzionalità numeriche.
Fare clic su Avvia selettore di colonna.
Per Inizia con selezionare Nessuna colonna.
Selezionare l'opzione Includi e selezionare tutte le funzionalità.
Fare clic sul segno più (+) per aggiungere una nuova condizione.
Selezionare l'opzione Includi, selezionare il tipo di colonna e quindi Categorical.
È necessario applicare un'operazione di normalizzazione diversa a colonne numeriche diverse.
Prima di applicare operazioni matematiche, potrebbe essere necessario separare i numeri interi dai numeri a virgola mobile e così via. A tale scopo, usare i tipi di dati e applicare più condizioni.
Fare clic su Launch column selector (Avvia selettore di colonna).
Per Inizia con selezionare Nessuna colonna.
Selezionare l'opzione Includi, selezionare il tipo di colonna e quindi selezionare Numerico.
Fare clic sul segno più (+) per aggiungere una nuova condizione.
Selezionare l'opzione Includi, selezionare il tipo di colonna e quindi selezionare il tipo numerico incompatibile con l'operazione downstream.
Sono presenti troppe colonne da scegliere usando il selettore.
Spesso, dopo l'importazione di un set di dati, è possibile che il set di dati abbia molte colonne non necessarie per la modellazione. È tuttavia necessario conservarli per l'output in un secondo momento o per identificare i casi. È possibile eseguire questa operazione suddividendo il set di dati in due parti (metadati e colonne usate per la modellazione) e quindi ricombinando le colonne in base alle esigenze, usando Aggiungi colonne.
Fare clic su Launch column selector (Avvia selettore di colonna).
Per Inizia con selezionare Nessuna colonna.
Selezionare l'opzione Includi, selezionare il tipo di colonna e quindi selezionare Funzionalità.
Fare clic sul segno più (+) per aggiungere una nuova condizione.
Selezionare l'opzione Includi, selezionare il tipo di colonna e quindi selezionare Etichetta.
Ripetere questi passaggi, ma iniziare con tutte le colonne e quindi escludere le colonne di caratteristiche ed etichette per creare un set di dati con solo i metadati.
Non si conoscono i valori di indice per le colonne necessarie.
Se nel set di dati sono presenti solo alcune colonne, è possibile usare l'opzione Visualizza per visualizzare le prime 100 righe e quindi determinare quale colonna è l'indice 1, 2 e così via.
Gli indici in Machine Learning iniziano da 1, quindi la prima colonna è sempre 1.
Per ottenere l'indice dell'ultima colonna, esaminare i due elenchi di colonne nel selettore di colonna: AVAILABLE COLUMNS e SELECTED COLUMNS. La barra grigia sotto l'elenco di colonne visualizza il numero di colonne in ogni elenco. Pertanto, se sono disponibili 24 colonne e vengono selezionate due colonne, è presente un totale di 26 colonne e l'indice della colonna finale è 26.
Un'altra opzione per estrarre lo schema del set di dati è usare il modulo Execute R Script (Esegui script R ) per ottenere i nomi delle colonne con numeri di indice.
Connessione il set di dati al modulo Execute R Script (Esegui script R).
Nel modulo digitare uno script simile al seguente per visualizzare i nomi delle colonne. La riga che inizia con
myindex
genera una sequenza che rappresenta gli indici in ordine.dataset1 <- maml.mapInputPort(1) # class: data.frame mycolnames <-names(dataset1); myindex <- seq(from = 1, to = length(mycolnames), by=1); outdata <- as.data.frame(cbind(myindex, mycolnames)); maml.mapOutputPort("outdata");
Risultati sul set di dati Automobile price
myindex mycolnames 1 symboling 2 normalized-losses 3 make
Note tecniche
Se si ha familiarità con i database relazionali, questo modulo crea una proiezione dei dati. da qui il nome originale, Project colonne. In termini di database, una proiezione è una funzione, ad esempio un'istruzione Transact-SQL o LINQ, che accetta dati in formato tabulare come input e produce un output correlato.
Nell'algebra relazionale, una proiezione è un'operazione unaria, scritta come set di nomi di attributi. Il risultato di una proiezione è il set di questi attributi, con altri attributi rimossi.
Input previsti
Nome | Tipo | Descrizione |
---|---|---|
Set di dati | Tabella dati | Set di dati di input |
Parametri del modulo
Nome | Intervallo | Type | Predefinito | Descrizione |
---|---|---|---|---|
Selezione colonne | any | ColumnSelection | Selezionare le colonne da mantenere nel set di dati stimato. |
Output
Nome | Tipo | Descrizione |
---|---|---|
Set di dati di risultati | Tabella dati | Set di dati di output |
Eccezioni
Eccezione | Descrizione |
---|---|
Errore 0001 | Si verifica un'eccezione se non è possibile trovare una o più colonne specificate del set di dati. |
Errore 0003 | Si verifica un'eccezione se uno o più set di dati di input sono Null o vuoti. |
Per un elenco di errori specifici dei moduli di Studio (versione classica), vedere l'Machine Learning codici di errore.
Per un elenco delle eccezioni API, vedere l'Machine Learning di errore dell'API REST.