Moduli di selezione delle funzioni

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Questo articolo descrive i moduli in Machine Learning Studio (versione classica) che è possibile usare per la selezione delle funzionalità.

Nota

Si applica a: Machine Learning Studio (versione classica)

Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.

La selezione delle funzionalità è uno strumento importante nell'apprendimento automatico. Machine Learning Studio (versione classica) offre diversi metodi per eseguire la selezione delle funzionalità. Scegliere un metodo di selezione delle caratteristiche in base al tipo di dati e ai requisiti della tecnica statistica applicata.

Questo articolo riguarda:

Ogni modulo di selezione delle funzionalità in Machine Learning Studio (versione classica) usa un set di dati come input. Il modulo applica quindi metodi statistici noti alle colonne di dati fornite come input. L'output è un set di metriche che consentono di identificare le colonne con il valore di informazioni migliore.

Informazioni sulla selezione delle funzionalità

Nel Machine Learning e nelle statistiche, la selezione delle caratteristiche è il processo di selezione di un subset di funzionalità utili pertinenti da usare nella creazione di un modello analitico. La selezione delle caratteristiche consente di restringere il campo dei dati agli input più importanti. Restringere il campo dei dati consente di ridurre il rumore e migliorare le prestazioni di training.

Spesso, le funzionalità vengono create da dati non elaborati tramite un processo di progettazione delle funzionalità. Ad esempio, un timestamp di per sé potrebbe non essere utile per la modellazione fino a quando le informazioni non vengono trasformate in unità di giorni, mesi o categorie rilevanti per il problema, ad esempio ferie o giorni lavorativi.

I nuovi utenti di Machine Learning potrebbero essere tentati di includere tutti i dati disponibili. È possibile che l'algoritmo trovi qualcosa di interessante usando più dati. Tuttavia, la selezione delle caratteristiche può in genere migliorare il modello ed evitare problemi comuni:

  • I dati contengono funzionalità ridondanti o irrilevanti, che non forniscono altre informazioni rispetto alle funzionalità attualmente selezionate.
  • I dati contengono funzionalità irrilevanti che non forniscono informazioni utili in alcun contesto. L'inclusione di campi irrilevanti non solo aumenta il tempo necessario per eseguire il training dei dati, ma può anche causare risultati scarsi.
  • Con alcuni algoritmi, la presenza di informazioni duplicate nei dati di training può causare un fenomeno denominato multicollinearità. Nella multicollinearità, la presenza di due variabili altamente correlate può far sì che i calcoli per altre variabili diventino molto meno accurati.

Suggerimento

Alcuni algoritmi di Machine Learning in Machine Learning Studio (versione classica) usano anche la selezione delle caratteristiche o la riduzione della dimensionalità come parte del processo di training. Quando si usano questi strumenti di apprendimento, è possibile ignorare il processo di selezione delle funzioni e far scegliere all'algoritmo gli input migliori.

Usare la selezione delle caratteristiche in un esperimento

La selezione delle caratteristiche viene in genere eseguita quando si esplorano i dati e si sviluppa un nuovo modello. Quando si usa la selezione delle funzionalità, tenere presenti questi suggerimenti:

  • Durante il test, aggiungere la selezione delle caratteristiche all'esperimento per generare punteggi che informano la decisione sulle colonne da usare.
  • Rimuovere la selezione delle caratteristiche dall'esperimento quando si operaziona un modello.
  • Eseguire periodicamente la selezione delle funzionalità per assicurarsi che i dati e le funzionalità migliori non siano stati modificati.

La selezione delle caratteristiche è diversa dalla progettazione delle caratteristiche, che è incentrata sulla creazione di nuove funzionalità dai dati esistenti.

Risorse

  • Per una descrizione dei diversi modi in cui è possibile progettare le funzionalità o selezionare le funzionalità migliori come parte del processo di data science, vedere Progettazione di funzionalità in data science.
  • Per una procedura dettagliata sulla selezione delle funzionalità nel data science, vedere Filtrare le funzionalità dai dati - Selezione delle funzionalità.

Metodi di selezione delle funzionalità in Machine Learning Studio (versione classica)

I moduli di selezione delle funzionalità seguenti sono disponibili in Machine Learning Studio (versione classica).

Filter Based Feature Selection

Quando si usa il modulo Filter Based Feature Selection (Selezione funzionalità basata su filtro), è possibile scegliere tra i metodi noti di selezione delle funzionalità. Il modulo restituisce sia le statistiche di selezione delle caratteristiche che il set di dati filtrato.

La scelta di un metodo di selezione del filtro dipende in parte dal tipo di dati di input disponibile.

Metodo Input di funzione supportati Etichette supportate
Correlazione di Pearson Solo colonne numeriche e logiche Singola colonna numerica o logica
Punteggio basato sull'informazione mutua Tutti i tipi di dati Singola colonna di un tipo di dati
Coefficiente di correlazione di Kendall Solo colonne numeriche e logiche Singola colonna numerica o logica

Le colonne devono avere valori che possono essere classificati
Coefficiente di correlazione di Spearman Solo colonne numeriche e logiche Singola colonna numerica o logica
Statistica chi quadrato Tutti i tipi di dati Singola colonna di un tipo di dati
Punteggio di Fisher Solo colonne numeriche e logiche Singola colonna numerica o logica

Alle colonne stringa viene assegnato un punteggio pari a 0
Selezione delle funzioni basata sui conteggi Tutti i tipi di dati Colonna di etichetta non necessaria

Fisher Linear Discriminant Analysis

L'analisi lineare discriminante è una tecnica di apprendimento supervisionato che è possibile usare per classificare le variabili numeriche in combinazione con una singola destinazione categorica. Il metodo è utile per la selezione delle funzioni perché identifica la combinazione ottimale di funzioni o parametri per separare i gruppi.

È possibile usare il modulo Linear Dismineinant Analysis di Linear Per generare un set di punteggi per la revisione oppure è possibile usare il set di dati sostitutivo generato dal modulo per il training.

Permutation Feature Importance

Usare il modulo Permutation Feature Importance (Importanza funzionalità di permutazione ) per simulare l'effetto di qualsiasi set di funzionalità sul set di dati. Il modulo calcola i punteggi delle prestazioni per un modello in base alla riproduzione casuale dei valori delle funzionalità.

I punteggi restituiti dal modulo rappresentano la potenziale modifica nell'accuratezza di un modello con training se i valori cambiano. È possibile usare i punteggi per determinare l'effetto delle singole variabili sul modello.

Algoritmi di Machine Learning che incorporano la selezione delle caratteristiche

Alcuni algoritmi di Machine Learning in Machine Learning Studio (versione classica) ottimizzano la selezione delle funzionalità durante il training. Possono anche fornire parametri utili per la selezione delle caratteristiche. Se si usa un metodo con una propria euristica per la scelta delle caratteristiche, è spesso meglio basarsi su tale euristica anziché su funzionalità preselezionate.

Questi algoritmi e metodi di selezione delle caratteristiche vengono usati internamente:

  • Modelli di albero delle decisioni con boosted per la classificazione e la regressione

    In questi moduli viene creato internamente un riepilogo delle funzionalità. Le funzionalità con un peso di 0 non vengono usate dalle divisioni dell'albero. Quando si visualizza il modello con training migliore, è possibile esaminare ognuno degli alberi. Se una funzionalità non viene mai usata in alcun albero, è probabile che sia un candidato per la rimozione. Per ottimizzare la selezione, è anche buona idea usare lo sweep dei parametri.

  • Modelli di regressione logistica e modelli lineari

    I moduli per la regressione logistica multiclasse e binaria supportano la regolarizzazione L1 e L2. La regolarizzazione è un modo per aggiungere vincoli durante il training per specificare manualmente un aspetto del modello appreso. La regolarizzazione viene in genere usata per evitare l'overfitting. Machine Learning Studio (versione classica) supporta la regolarizzazione per le norme L1 o L2 del vettore di peso negli algoritmi di classificazione lineare:

    • La regolarizzazione L1 è utile se l'obiettivo è avere un modello il più disparse possibile.
    • La regolarizzazione di tipo L2 impedisce a qualsiasi coordinata singola del vettore di peso di raggiungere una dimensione troppo elevata È utile se l'obiettivo è avere un modello con pesi complessivi di piccole dimensioni.
    • La regressione logistica con regolarità L1 è più aggressiva nell'assegnare un peso di 0 alle funzionalità. È utile per identificare le funzionalità che possono essere rimosse.

Note tecniche

Tutti i moduli di selezione delle funzionalità e i metodi analitici che supportano le colonne numeriche e logiche supportano anche le colonne data-ora e intervallo di tempo. Queste colonne vengono considerate come colonne numeriche semplici in cui ogni valore è uguale al numero di tick.

I moduli seguenti non sono nella categoria Selezione funzionalità, ma è possibile usarli per le attività correlate. I moduli consentono di ridurre la dimensionalità dei dati o di trovare correlazioni:

Se si dispone di un set di dati con molte colonne, usare il modulo Principal Component Analysis per rilevare le colonne che contengono il maggior numero di informazioni sui dati originali.

Questo modulo si trova nella categoria Trasformazione dati , in Scala e riduzione.

La funzionalità basata sul conteggio è una nuova tecnica che è possibile usare per determinare funzionalità utili usando set di dati di grandi dimensioni. Usare questi moduli per analizzare i set di dati per trovare le funzionalità migliori, salvare un set di funzionalità da usare con nuovi dati o aggiornare un set di funzionalità esistente.

Usare questo modulo per calcolare un set di coefficienti di correlazione Pearson per ogni possibile coppia di variabili nel set di dati di input. Il coefficiente di correlazione pearson, chiamato anche test R di Pearson, è un valore statistico che misura la relazione lineare tra due variabili.

Questo modulo è nella categoria Funzioni statistiche .

Elenco di moduli

La categoria Selezione funzionalità include i moduli seguenti:

Vedi anche