Moduli di selezione delle funzioni
Importante
Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.
A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).
- Vedere leinformazioni sullo spostamento di progetti di Machine Learning da ML Studio (versione classica) ad Azure Machine Learning.
- Altre informazioni sulle Azure Machine Learning.
La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.
Questo articolo descrive i moduli in Machine Learning Studio (versione classica) che è possibile usare per la selezione delle funzionalità.
Nota
Si applica a: Machine Learning Studio (versione classica)
Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.
La selezione delle funzionalità è uno strumento importante nell'apprendimento automatico. Machine Learning Studio (versione classica) offre diversi metodi per eseguire la selezione delle funzionalità. Scegliere un metodo di selezione delle caratteristiche in base al tipo di dati e ai requisiti della tecnica statistica applicata.
Questo articolo riguarda:
- Che cos'è la selezione delle caratteristiche
- Moduli di selezione delle funzionalità in Machine Learning
- Come usare la selezione delle caratteristiche
- Algoritmi che includono la selezione delle caratteristiche
Ogni modulo di selezione delle funzionalità in Machine Learning Studio (versione classica) usa un set di dati come input. Il modulo applica quindi metodi statistici noti alle colonne di dati fornite come input. L'output è un set di metriche che consentono di identificare le colonne con il valore di informazioni migliore.
Informazioni sulla selezione delle funzionalità
Nel Machine Learning e nelle statistiche, la selezione delle caratteristiche è il processo di selezione di un subset di funzionalità utili pertinenti da usare nella creazione di un modello analitico. La selezione delle caratteristiche consente di restringere il campo dei dati agli input più importanti. Restringere il campo dei dati consente di ridurre il rumore e migliorare le prestazioni di training.
Spesso, le funzionalità vengono create da dati non elaborati tramite un processo di progettazione delle funzionalità. Ad esempio, un timestamp di per sé potrebbe non essere utile per la modellazione fino a quando le informazioni non vengono trasformate in unità di giorni, mesi o categorie rilevanti per il problema, ad esempio ferie o giorni lavorativi.
I nuovi utenti di Machine Learning potrebbero essere tentati di includere tutti i dati disponibili. È possibile che l'algoritmo trovi qualcosa di interessante usando più dati. Tuttavia, la selezione delle caratteristiche può in genere migliorare il modello ed evitare problemi comuni:
- I dati contengono funzionalità ridondanti o irrilevanti, che non forniscono altre informazioni rispetto alle funzionalità attualmente selezionate.
- I dati contengono funzionalità irrilevanti che non forniscono informazioni utili in alcun contesto. L'inclusione di campi irrilevanti non solo aumenta il tempo necessario per eseguire il training dei dati, ma può anche causare risultati scarsi.
- Con alcuni algoritmi, la presenza di informazioni duplicate nei dati di training può causare un fenomeno denominato multicollinearità. Nella multicollinearità, la presenza di due variabili altamente correlate può far sì che i calcoli per altre variabili diventino molto meno accurati.
Suggerimento
Alcuni algoritmi di Machine Learning in Machine Learning Studio (versione classica) usano anche la selezione delle caratteristiche o la riduzione della dimensionalità come parte del processo di training. Quando si usano questi strumenti di apprendimento, è possibile ignorare il processo di selezione delle funzioni e far scegliere all'algoritmo gli input migliori.
Usare la selezione delle caratteristiche in un esperimento
La selezione delle caratteristiche viene in genere eseguita quando si esplorano i dati e si sviluppa un nuovo modello. Quando si usa la selezione delle funzionalità, tenere presenti questi suggerimenti:
- Durante il test, aggiungere la selezione delle caratteristiche all'esperimento per generare punteggi che informano la decisione sulle colonne da usare.
- Rimuovere la selezione delle caratteristiche dall'esperimento quando si operaziona un modello.
- Eseguire periodicamente la selezione delle funzionalità per assicurarsi che i dati e le funzionalità migliori non siano stati modificati.
La selezione delle caratteristiche è diversa dalla progettazione delle caratteristiche, che è incentrata sulla creazione di nuove funzionalità dai dati esistenti.
Risorse
- Per una descrizione dei diversi modi in cui è possibile progettare le funzionalità o selezionare le funzionalità migliori come parte del processo di data science, vedere Progettazione di funzionalità in data science.
- Per una procedura dettagliata sulla selezione delle funzionalità nel data science, vedere Filtrare le funzionalità dai dati - Selezione delle funzionalità.
Metodi di selezione delle funzionalità in Machine Learning Studio (versione classica)
I moduli di selezione delle funzionalità seguenti sono disponibili in Machine Learning Studio (versione classica).
Filter Based Feature Selection
Quando si usa il modulo Filter Based Feature Selection (Selezione funzionalità basata su filtro), è possibile scegliere tra i metodi noti di selezione delle funzionalità. Il modulo restituisce sia le statistiche di selezione delle caratteristiche che il set di dati filtrato.
La scelta di un metodo di selezione del filtro dipende in parte dal tipo di dati di input disponibile.
Metodo | Input di funzione supportati | Etichette supportate |
---|---|---|
Correlazione di Pearson | Solo colonne numeriche e logiche | Singola colonna numerica o logica |
Punteggio basato sull'informazione mutua | Tutti i tipi di dati | Singola colonna di un tipo di dati |
Coefficiente di correlazione di Kendall | Solo colonne numeriche e logiche | Singola colonna numerica o logica Le colonne devono avere valori che possono essere classificati |
Coefficiente di correlazione di Spearman | Solo colonne numeriche e logiche | Singola colonna numerica o logica |
Statistica chi quadrato | Tutti i tipi di dati | Singola colonna di un tipo di dati |
Punteggio di Fisher | Solo colonne numeriche e logiche | Singola colonna numerica o logica Alle colonne stringa viene assegnato un punteggio pari a 0 |
Selezione delle funzioni basata sui conteggi | Tutti i tipi di dati | Colonna di etichetta non necessaria |
Fisher Linear Discriminant Analysis
L'analisi lineare discriminante è una tecnica di apprendimento supervisionato che è possibile usare per classificare le variabili numeriche in combinazione con una singola destinazione categorica. Il metodo è utile per la selezione delle funzioni perché identifica la combinazione ottimale di funzioni o parametri per separare i gruppi.
È possibile usare il modulo Linear Dismineinant Analysis di Linear Per generare un set di punteggi per la revisione oppure è possibile usare il set di dati sostitutivo generato dal modulo per il training.
Permutation Feature Importance
Usare il modulo Permutation Feature Importance (Importanza funzionalità di permutazione ) per simulare l'effetto di qualsiasi set di funzionalità sul set di dati. Il modulo calcola i punteggi delle prestazioni per un modello in base alla riproduzione casuale dei valori delle funzionalità.
I punteggi restituiti dal modulo rappresentano la potenziale modifica nell'accuratezza di un modello con training se i valori cambiano. È possibile usare i punteggi per determinare l'effetto delle singole variabili sul modello.
Algoritmi di Machine Learning che incorporano la selezione delle caratteristiche
Alcuni algoritmi di Machine Learning in Machine Learning Studio (versione classica) ottimizzano la selezione delle funzionalità durante il training. Possono anche fornire parametri utili per la selezione delle caratteristiche. Se si usa un metodo con una propria euristica per la scelta delle caratteristiche, è spesso meglio basarsi su tale euristica anziché su funzionalità preselezionate.
Questi algoritmi e metodi di selezione delle caratteristiche vengono usati internamente:
Modelli di albero delle decisioni con boosted per la classificazione e la regressione
In questi moduli viene creato internamente un riepilogo delle funzionalità. Le funzionalità con un peso di 0 non vengono usate dalle divisioni dell'albero. Quando si visualizza il modello con training migliore, è possibile esaminare ognuno degli alberi. Se una funzionalità non viene mai usata in alcun albero, è probabile che sia un candidato per la rimozione. Per ottimizzare la selezione, è anche buona idea usare lo sweep dei parametri.
Modelli di regressione logistica e modelli lineari
I moduli per la regressione logistica multiclasse e binaria supportano la regolarizzazione L1 e L2. La regolarizzazione è un modo per aggiungere vincoli durante il training per specificare manualmente un aspetto del modello appreso. La regolarizzazione viene in genere usata per evitare l'overfitting. Machine Learning Studio (versione classica) supporta la regolarizzazione per le norme L1 o L2 del vettore di peso negli algoritmi di classificazione lineare:
- La regolarizzazione L1 è utile se l'obiettivo è avere un modello il più disparse possibile.
- La regolarizzazione di tipo L2 impedisce a qualsiasi coordinata singola del vettore di peso di raggiungere una dimensione troppo elevata È utile se l'obiettivo è avere un modello con pesi complessivi di piccole dimensioni.
- La regressione logistica con regolarità L1 è più aggressiva nell'assegnare un peso di 0 alle funzionalità. È utile per identificare le funzionalità che possono essere rimosse.
Note tecniche
Tutti i moduli di selezione delle funzionalità e i metodi analitici che supportano le colonne numeriche e logiche supportano anche le colonne data-ora e intervallo di tempo. Queste colonne vengono considerate come colonne numeriche semplici in cui ogni valore è uguale al numero di tick.
Attività correlate
I moduli seguenti non sono nella categoria Selezione funzionalità, ma è possibile usarli per le attività correlate. I moduli consentono di ridurre la dimensionalità dei dati o di trovare correlazioni:
Se si dispone di un set di dati con molte colonne, usare il modulo Principal Component Analysis per rilevare le colonne che contengono il maggior numero di informazioni sui dati originali.
Questo modulo si trova nella categoria Trasformazione dati , in Scala e riduzione.
La funzionalità basata sul conteggio è una nuova tecnica che è possibile usare per determinare funzionalità utili usando set di dati di grandi dimensioni. Usare questi moduli per analizzare i set di dati per trovare le funzionalità migliori, salvare un set di funzionalità da usare con nuovi dati o aggiornare un set di funzionalità esistente.
Usare questo modulo per calcolare un set di coefficienti di correlazione Pearson per ogni possibile coppia di variabili nel set di dati di input. Il coefficiente di correlazione pearson, chiamato anche test R di Pearson, è un valore statistico che misura la relazione lineare tra due variabili.
Questo modulo è nella categoria Funzioni statistiche .
Elenco di moduli
La categoria Selezione funzionalità include i moduli seguenti:
- Selezione funzionalità basata su filtro: identifica le funzionalità di un set di dati con la massima potenza predittiva.
- Fisher Linear Discriminant Analysis: identifica la combinazione lineare di variabili di funzionalità che possono raggruppare i dati in classi separate.
- Importanza della funzionalità di permutazione: calcola i punteggi di importanza della funzionalità di permutazione delle variabili di funzionalità per un modello con training e un set di dati di test.