Componente Foresta delle decisioni multiclasse

Questo articolo descrive un componente nella finestra di progettazione di Azure Machine Learning.

Usare questo componente per creare un modello di Machine Learning basato sull'algoritmo di foresta delle decisioni. Una foresta decisionale è un modello di insieme che crea rapidamente una serie di alberi delle decisioni, durante l'apprendimento dai dati contrassegnati.

Altre informazioni sulle foreste decisionali

L'algoritmo di foresta delle decisioni è un metodo di apprendimento completo per la classificazione. L'algoritmo funziona creando più alberi delle decisioni e quindi votando sulla classe di output più popolare. Il voto è una forma di aggregazione, in cui ogni albero in una foresta delle decisioni di classificazione restituisce un istogramma di etichette con frequenza non normalizzata. Il processo di aggregazione somma questi istogrammi e normalizza il risultato per ottenere le "probabilità" per ogni etichetta. Gli alberi che hanno una probabilità di stima elevata hanno un peso maggiore nella decisione finale dell'ensemble.

Gli alberi delle decisioni in generale sono modelli non parametrici, ovvero supportano i dati con distribuzioni diverse. In ogni albero viene eseguita una sequenza di test semplici per ogni classe, aumentando i livelli di una struttura ad albero fino a quando non viene raggiunto un nodo foglia (decisione).

Gli alberi delle decisioni presentano molti vantaggi:

  • Possono rappresentare limiti decisionali non lineari.
  • Sono efficienti nell'utilizzo di calcolo e memoria durante il training e la stima.
  • Eseguono la selezione e la classificazione integrate delle funzionalità.
  • Sono resilienti in presenza di caratteristiche rumorose.

Il classificatore della foresta delle decisioni in Azure Machine Learning è costituito da un insieme di alberi delle decisioni. In genere, i modelli di insieme offrono una copertura e un'accuratezza migliori rispetto ai singoli alberi delle decisioni. Per altre informazioni, vedere Alberi delle decisioni.

Come configurare la foresta delle decisioni multiclasse

  1. Aggiungere il componente Foresta delle decisioni multiclasse alla pipeline nella finestra di progettazione. È possibile trovare questo componente in Machine Learning, Inizializzare il modello e classificazione.

  2. Fare doppio clic sul componente per aprire il riquadro Proprietà .

  3. Per Metodo di ricampionamento scegliere il metodo usato per creare i singoli alberi. È possibile scegliere tra l'assegnazione di bagging o la replica.

    • Bagging: Bagging è detto anche aggregazione bootstrap. In questo metodo ogni albero viene cresciuto in un nuovo esempio, creato eseguendo un campionamento casuale del set di dati originale con sostituzione fino a quando non si ha un set di dati le dimensioni dell'originale. Gli output dei modelli vengono combinati tramite voto, che è una forma di aggregazione. Per altre informazioni, vedere la voce wikipedia per l'aggregazione bootstrap.

    • Replica: nella replica, ogni albero viene sottoposto a training esattamente sugli stessi dati di input. La determinazione del predicato diviso usato per ogni nodo della struttura ad albero rimane casuale, creando alberi diversi.

  4. Specificare la modalità di training del modello impostando l'opzione Crea modalità di training.

    • Singolo parametro: selezionare questa opzione se si sa come configurare il modello e specificare un set di valori come argomenti.

    • Intervallo di parametri: selezionare questa opzione se non si è certi dei parametri migliori e si vuole eseguire uno sweep di parametri. Selezionare un intervallo di valori per scorrere e ottimizzare gli iperparametri del modello esegue l'iterazione su tutte le possibili combinazioni delle impostazioni fornite per determinare gli iperparametri che producono i risultati ottimali.

  5. Numero di alberi delle decisioni: digitare il numero massimo di alberi delle decisioni che è possibile creare nell'insieme. Creando più alberi delle decisioni, è possibile ottenere una copertura migliore, ma il tempo di training potrebbe aumentare.

    Se si imposta il valore su 1; Ciò significa tuttavia che è possibile produrre un solo albero (l'albero con il set iniziale di parametri) e non vengono eseguite altre iterazioni.

  6. Profondità massima degli alberi delle decisioni: digitare un numero per limitare la profondità massima di qualsiasi albero delle decisioni. L'aumento della profondità dell'albero potrebbe aumentare la precisione, a rischio di un overfitting e di un aumento del tempo di training.

  7. Numero di divisioni casuali per nodo: digitare il numero di divisioni da usare durante la compilazione di ogni nodo dell'albero. Una divisione indica che le funzionalità in ogni livello dell'albero (nodo) sono suddivise in modo casuale.

  8. Numero minimo di campioni per nodo foglia: indicare il numero minimo di case necessari per creare qualsiasi nodo terminale (foglia) in un albero. Aumentando questo valore, si aumenta la soglia per la creazione di nuove regole.

    Ad esempio, con il valore predefinito 1, anche un singolo caso può causare la creazione di una nuova regola. Se si aumenta il valore a 5, i dati di training devono contenere almeno cinque case che soddisfano le stesse condizioni.

  9. Connettere un set di dati etichettato ed eseguire il training del modello:

    • Se si imposta Create trainer mode (Crea modalità trainer) su Single Parameter (Parametro singolo), connettere un set di dati con tag e il componente Train Model (Train Model ).

    • Se si imposta La modalità di training su Intervallo di parametri, connettere un set di dati con tag ed eseguire il training del modello usando Ottimizzazione degli iperparametri del modello.

    Nota

    Se si passa un intervallo di parametri a Train Model, viene usato solo il valore predefinito nell'elenco dei singoli parametri.

    Se si passa un singolo set di valori di parametro al componente Tune Model Hyperparameters , quando prevede un intervallo di impostazioni per ogni parametro, ignora i valori e usa i valori predefiniti per lo strumento di apprendimento.

    Se si seleziona l'opzione Intervallo di parametri e si immette un singolo valore per qualsiasi parametro, tale singolo valore specificato viene usato durante lo sweep, anche se altri parametri cambiano in un intervallo di valori.

  10. Inviare la pipeline.

Passaggi successivi

Vedere il set di componenti disponibili per Azure Machine Learning.