Regressione foresta delle decisioni

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Crea un modello di regressione con l'algoritmo di foresta delle decisioni

Categoria: Inizializza modello - Regressione

Nota

Si applica a: Machine Learning Studio (versione classica)

Moduli di trascinamento della selezione simili sono disponibili nella finestra Azure Machine Learning progettazione.

Panoramica del modulo

Questo articolo descrive come usare il modulo Decision Forest Regression in Machine Learning Studio (versione classica) per creare un modello di regressione basato su un insieme di alberi delle decisioni.

Dopo aver configurato il modello, è necessario eseguire il training del modello usando un set di dati con etichetta e il modulo Train Model (Training modello ). Sarà quindi possibile usare il modello con training per ottenere stime. In alternativa, il modello senza training può essere passato al modello di convalida incrociata per la convalida incrociata rispetto a un set di dati con etichetta.

Funzionamento delle foreste decisionali nelle attività di regressione

Gli alberi delle decisioni sono modelli non parametrici che eseguono una sequenza di semplici test per ogni istanza, attraversando una struttura dei dati ad albero binario fino a raggiungere un nodo foglia (decisione).

Gli alberi delle decisioni offrono i vantaggi seguenti:

  • Sono efficienti sia nel calcolo che nell'uso della memoria durante il training e la stima.

  • Possono rappresentare limiti di decisione non lineari.

  • Eseguono la selezione e la classificazione integrata delle funzioni e sono resilienti in caso di funzioni con rumore.

Questo modello di regressione è costituito da un insieme di alberi delle decisioni. Ogni albero in una foresta decisionale di regressione restituisce una distribuzione gaussiana come stima. Un'aggregazione viene eseguita sull'insieme di alberi per trovare una distribuzione gaussiana più vicina alla distribuzione combinata per tutti gli alberi nel modello.

Per altre informazioni sul framework teorico per questo algoritmo e la relativa implementazione, vedere questo articolo: Decision Forests: A Unified Framework for Classification, Regression, Density Estimation, Manifold Learning and Semi-Supervised Learning

Come configurare il modello di regressione della foresta decisionale

  1. Aggiungere il modulo Decision Forest Regression all'esperimento. È possibile trovare il modulo in Studio (versione classica) in Machine Learning,Inizializza modello e Regressione.

  2. Aprire le proprietà del modulo e per Il metodo di ricampionamento scegliere il metodo usato per creare i singoli alberi. È possibile scegliere tra Bagging o Replicate.

    • Bagging: Bagging è anche detto aggregazione bootstrap. Ogni albero in una foresta decisionale di regressione restituisce una distribuzione gaussiana tramite la stima. L'aggregazione è trovare un gaussiano i cui primi due momenti corrispondono ai momenti della combinazione di gaussiani data combinando tutti i gaussiani restituiti dai singoli alberi.

      Per altre informazioni, vedere la voce Wikipedia per l'aggregazione bootstrap.

    • Replica: nella replica ogni albero viene addestrato esattamente sugli stessi dati di input. La determinazione del predicato di divisione usato per ogni nodo dell'albero rimane casuale e gli alberi saranno diversi.

      Per altre informazioni sul processo di training con l'opzione Replica, vedere Decision Forests for Visione artificiale and Medical Image Analysis . E J. Shotton. Springer 2013.

  3. Specificare la modalità di training del modello impostando l'opzione Crea modalità trainer .

    • Parametro singolo

      Se si conosce il modo in cui si desidera configurare il modello, è possibile definire come argomenti un set specifico di valori. Questi valori possono essere stati appresi dalle sperimentazioni o ricevuti come istruzioni.

    • Parameter Range

      Se non si è certi dei parametri migliori, è possibile trovare i parametri ottimali specificando più valori e usando uno sweep dei parametri per trovare la configurazione ottimale.

      L'ottimizzazione degli iperparamerati del modello consente di eseguire l'iterazione su tutte le possibili combinazioni delle impostazioni fornite e di determinare la combinazione di impostazioni che produce risultati ottimali.

  4. In Numero di alberi delle decisioni indicare il numero totale di alberi delle decisioni da creare nell'insieme. Creando più alberi delle decisioni, è possibile ottenere una migliore copertura, ma saranno necessari tempi di training maggiori.

    Suggerimento

    Questo valore controlla anche il numero di alberi visualizzati durante la visualizzazione del modello con training. se si vuole visualizzare o stampare un singolo albero, è possibile impostare il valore su 1; Ciò significa tuttavia che verrà generato un solo albero (l'albero con il set iniziale di parametri) e non verranno eseguite altre iterazioni.

  5. In Profondità massima degli alberi delle decisioni digitare un numero per limitare la profondità massima di qualsiasi albero delle decisioni. L'aumento della profondità dell'albero potrebbe aumentare la precisione, con il rischio però di overfitting e di aumento dei tempi di training.

  6. In Numero di divisioni casuali per nodo digitare il numero di divisioni da usare durante la compilazione di ogni nodo dell'albero. Una divisione indica che le funzionalità in ogni livello dell'albero (nodo) vengono suddivise in modo casuale.

  7. Per Numero minimo di campioni per nodo foglia, indicare il numero minimo di case necessari per creare qualsiasi nodo terminale (foglia) in un albero.

    Aumentando questo valore, aumenta la soglia per la creazione di nuove regole. Ad esempio, con un valore predefinito di 1, anche un singolo caso può determinare la creazione di una nuova regola. Se si aumenta il valore a 5, i dati di training devono contenere almeno 5 casi che soddisfano le stesse condizioni.

  8. Selezionare l'opzione Consenti valori sconosciuti per le funzionalità categoriche per creare un gruppo per i valori sconosciuti nei set di training o di convalida.

    Se viene deselezionata, il modello può accettare solo i valori contenuti nei dati di training. Nel primo caso, il modello può essere meno preciso sui valori noti, ma può fornire stime migliori per i valori nuovi (sconosciuti).

  9. Connessione un set di dati con etichetta, selezionare una colonna con etichetta singola contenente non più di due risultati e connettere gli iperparamermi Train Model (Train Model) o Tune Model Hyperparameters (Ottimizza iperparamezionari modello).

  10. Eseguire l'esperimento.

Risultati

Al termine del training:

  • Per visualizzare l'albero creato in ogni iterazione, fare clic con il pulsante destro del mouse sull'output del modulo di training e scegliere Visualizza.

  • Per visualizzare le regole per ogni nodo, fare clic su ogni albero ed eseguire il drill-down nelle divisioni.

  • Per salvare uno snapshot del modello con training, fare clic con il pulsante destro del mouse sull'output del modulo di training e scegliere Salva come modello con training. Questa copia del modello non viene aggiornata nelle esecuzioni successive dell'esperimento.

Esempio

Per esempi di modelli di regressione, vedere questi esperimenti di esempio in Cortana Intelligence Gallery:

Note tecniche

Questa sezione contiene informazioni dettagliate sull'implementazione, suggerimenti e risposte alle domande frequenti.

  • Se si passa un intervallo di parametri a Train Model, verrà utilizzato solo il primo valore nell'elenco di intervalli di parametri.

  • Se si passa un singolo set di valori di parametro al modulo Tune Model Hyperparameters ,quando si prevede un intervallo di impostazioni per ogni parametro, vengono ignorati i valori e vengono utilizzati i valori predefiniti per lo strumento di apprendimento.

  • Se si seleziona l'opzione Intervallo parametri e si immette un singolo valore per qualsiasi parametro, il singolo valore specificato verrà usato in tutta la sweep, anche se altri parametri cambiano in un intervallo di valori.

Suggerimenti per l'uso

Se i dati sono limitati o se si vuole ridurre al minimo il tempo necessario per il training del modello, provare a usare le impostazioni seguenti:

Training set limitato. Se il training set include un numero limitato di istanze:

  • Creare la foresta delle decisioni usando un numero elevato di alberi delle decisioni, ad esempio più di 20.

  • Usare l'opzione Bagging per ripetere il campionamento.

  • Specificare un numero elevato di divisioni casuali per ogni nodo, ad esempio più di 1000.

Tempo di training limitato. Se il training set contiene un numero elevato di istanze e il tempo di training è limitato:

  • Creare la foresta delle decisioni usando un numero minore di alberi delle decisioni, ad esempio da 5 a 10.

  • Usare l'opzione Replicate per ripetere il campionamento.

  • Specificare un numero basso di divisioni casuali per ogni nodo, ad esempio meno di 100.

Parametri del modulo

Nome Intervallo Type Predefinito Descrizione
Resampling method any ResamplingMethod Bagging Scegliere un metodo di ripetizione del campionamento
Number of decision trees >=1 Integer 8 Specificare il numero di alberi delle decisioni da creare nell'insieme
Maximum depth of the decision trees >=1 Integer 32 Specifica la profondità massima degli alberi delle decisioni che vengono creati nell'insieme
Number of random splits per node >=1 Integer 128 Specifica il numero di divisioni generate per ogni nodo, da cui viene selezionata la divisione ottimale
Minimum number of samples per leaf node >=1 Integer 1 Specifica il numero minimo di esempi di training necessari per generare un nodo foglia.
Allow unknown values for categorical features any Boolean true Indica se i valori sconosciuti delle funzioni categoriche esistenti possono essere mappati a una nuova funzione aggiuntiva

Output

Nome Tipo Descrizione
Untrained model ILearner interface Modello di regressione senza training

Vedi anche

Regressione

Elenco moduli A-Z