Selezionare colonne nel componente Set di dati

Questo articolo descrive un componente nella finestra di progettazione di Azure Machine Learning.

Utilizzare questo componente per scegliere un subset di colonne da usare nelle operazioni downstream. Il componente non rimuove fisicamente le colonne dal set di dati di origine; Crea invece un subset di colonne, in modo analogo a una vista o una proiezione del database.

Questo componente è utile quando è necessario limitare le colonne disponibili per un'operazione downstream o per ridurre le dimensioni del set di dati rimuovendo le colonne non necessarie.

Le colonne nel set di dati vengono restituite nello stesso ordine dei dati originali, anche se vengono specificate in un ordine diverso.

Uso

Questo componente non ha parametri. Usare il selettore di colonna per scegliere le colonne da includere o escludere.

Scegliere le colonne in base al nome

Nel componente sono disponibili più opzioni per la scelta delle colonne in base al nome:

  • Filtro e ricerca

    Fare clic sull'opzione BY NAME .

    Se è stato connesso un set di dati già popolato, verrà visualizzato un elenco di colonne disponibili. Se non vengono visualizzate colonne, potrebbe essere necessario eseguire componenti upstream per visualizzare l'elenco di colonne.

    Per filtrare l'elenco, digitare nella casella di ricerca. Ad esempio, se si digita la lettera w nella casella di ricerca, l'elenco viene filtrato per visualizzare i nomi di colonna che contengono la lettera w.

    Selezionare le colonne e fare clic sul pulsante freccia destra per spostare le colonne selezionate nell'elenco nel riquadro di destra.

    • Per selezionare un intervallo continuo di nomi di colonna, premere MAIUSC + Clic.
    • Per aggiungere singole colonne alla selezione, premere CTRL+CLIC.

    Fare clic sul pulsante del segno di spunta per salvare e chiudere.

  • Usare nomi in combinazione con altre regole

    Fare clic sull'opzione WITH RULES .

    Scegliere una regola, ad esempio la visualizzazione di colonne di un tipo di dati specifico.

    Fare quindi clic su singole colonne di quel tipo in base al nome per aggiungerle all'elenco di selezione.

  • Digitare o incollare un elenco delimitato da virgole di nomi di colonna

    Se il set di dati è ampio, potrebbe essere più facile usare indici o elenchi di nomi generati, anziché selezionare le colonne singolarmente. Supponendo di aver preparato l'elenco in anticipo:

    1. Fare clic sull'opzione WITH RULES .
    2. Selezionare No columns (Nessuna colonna), selezionare Includi e quindi fare clic all'interno della casella di testo con il punto esclamativo rosso.
    3. Incollare o digitare un elenco delimitato da virgole di nomi di colonna convalidati in precedenza. Non è possibile salvare il componente se una colonna contiene un nome non valido, quindi assicurarsi di controllare i nomi in anticipo.

    È anche possibile utilizzare questo metodo per specificare un elenco di colonne usando i relativi valori di indice.

Scegliere per tipo

Se si usa l'opzione WITH RULES , è possibile applicare più condizioni alle selezioni delle colonne. Ad esempio, potrebbe essere necessario ottenere solo colonne di funzionalità di un tipo di dati numerico.

L'opzione BEGIN WITH determina il punto di partenza ed è importante per comprendere i risultati.

  • Se si seleziona l'opzione TUTTE LE COLONNE , tutte le colonne vengono aggiunte all'elenco. È quindi necessario usare l'opzione Escludi per rimuovere colonne che soddisfano determinate condizioni.

    Ad esempio, è possibile iniziare con tutte le colonne e quindi rimuovere le colonne in base al nome o al tipo.

  • Se si seleziona l'opzione NO COLUMNS , l'elenco delle colonne inizia vuoto. Specificare quindi le condizioni per aggiungere colonne all'elenco.

    Se si applicano più regole, ogni condizione è aggiuntiva. Si supponga, ad esempio, di iniziare senza colonne e quindi di aggiungere una regola per ottenere tutte le colonne numeriche. Nel set di dati Automobile price (Automobile price) vengono restituite 16 colonne. Fare quindi clic sul + segno per aggiungere una nuova condizione e selezionare Includi tutte le funzionalità. Il set di dati risultante include tutte le colonne numeriche, oltre a tutte le colonne di funzionalità, incluse alcune colonne di funzionalità di stringa.

Scegliere per indice di colonna

L'indice di colonna fa riferimento all'ordine della colonna all'interno del set di dati originale.

  • Le colonne vengono numerate in sequenza a partire da 1.
  • Per ottenere un intervallo di colonne, usare un trattino.
  • Specifiche aperte, 1- ad esempio o -3 non consentite.
  • I valori di indice duplicati (o i nomi di colonna) non sono consentiti e potrebbero generare un errore.

Ad esempio, supponendo che il set di dati abbia almeno otto colonne, è possibile incollare uno degli esempi seguenti per restituire più colonne non contigue:

  • 8,1-4,6
  • 1,3-8
  • 1,3-6,4

l'esempio finale non genera un errore; restituisce tuttavia una singola istanza della colonna 4.

Modificare l'ordine delle colonne

L'opzione Consenti duplicati e mantieni l'ordine delle colonne nella selezione inizia con un elenco vuoto e aggiunge colonne specificate in base al nome o all'indice. A differenza di altre opzioni, che restituiscono sempre colonne nell'ordine naturale, questa opzione restituisce le colonne nell'ordine in cui vengono denominate o elencate.

Ad esempio, in un set di dati con le colonne Col1, Col2, Col3 e Col4, è possibile invertire l'ordine delle colonne e uscire dalla colonna 2, specificando uno degli elenchi seguenti:

  • Col4, Col3, Col1
  • 4,3,1

Passaggi successivi

Vedere il set di componenti disponibili per Azure Machine Learning.