Componente Regressione logistica a due classi

Questo articolo descrive un componente nella finestra di progettazione di Azure Machine Learning.

Usare questo componente per creare un modello di regressione logistica che può essere usato per stimare due (e solo due) risultati.

La regressione logistica è una tecnica statistica nota usata per la modellazione di molti tipi di problemi. Questo algoritmo è un metodo di apprendimento supervisionato, pertanto è necessario fornire un set di dati che contiene già i risultati per eseguire il training del modello.

Informazioni sulla regressione logistica

La regressione logistica è un metodo noto nelle statistiche che viene usato per stimare la probabilità di un risultato ed è particolarmente diffuso per le attività di classificazione. L'algoritmo stima la probabilità di occorrenza di un evento adattando i dati a una funzione logistica.

In questo componente l'algoritmo di classificazione è ottimizzato per variabili dicotomiche o binarie. se è necessario classificare più risultati, usare il componente Regressione logistica multiclasse .

Modalità di configurazione

Per eseguire il training di questo modello, è necessario specificare un set di dati contenente un'etichetta o una colonna di classe. Poiché questo componente è destinato a problemi a due classi, l'etichetta o la colonna della classe deve contenere esattamente due valori.

Ad esempio, la colonna etichetta potrebbe essere [votata] con valori possibili "Sì" o "No". In alternativa, potrebbe trattarsi di [rischio di credito], con valori possibili "Alto" o "Basso".

  1. Aggiungere il componente Two-Class Logistic Regression alla pipeline.

  2. Specificare la modalità di training del modello impostando l'opzione Crea modalità di training.

    • Singolo parametro: se si sa come configurare il modello, è possibile specificare un set specifico di valori come argomenti.

    • Intervallo di parametri: se non si è certi dei parametri migliori, è possibile trovare i parametri ottimali usando il componente Ottimizza iperparametri del modello. È possibile fornire un intervallo di valori e il formatore esegue l'iterazione su più combinazioni delle impostazioni per determinare la combinazione di valori che producono il risultato migliore.

  3. Per Tolleranza di ottimizzazione, specificare un valore soglia da usare durante l'ottimizzazione del modello. Se il miglioramento tra iterazioni scende al di sotto della soglia specificata, l'algoritmo viene considerato convergente su una soluzione e il training si arresta.

  4. Per il peso di regolarizzazione L1 e il peso di regolarizzazione L2, digitare un valore da utilizzare per i parametri di regolarizzazione L1 e L2. Per entrambi è consigliabile un valore diverso da zero.
    La regolarizzazione è un metodo per prevenire l'overfitting penalizzando i modelli con valori di coefficiente estremi. La regolarizzazione funziona aggiungendo la penalità associata ai valori dei coefficienti all'errore dell'ipotesi. Pertanto, un modello accurato con valori di coefficiente estremo sarebbe più penalizzato, ma un modello meno accurato con valori più conservativi sarebbe meno penalizzato.

    La regolarizzazione L1 e L2 hanno effetti e usi diversi.

    • L1 può essere applicato a modelli di tipo sparse, che è utile quando si utilizzano dati ad alta dimensione.

    • Al contrario, la regolarizzazione L2 è preferibile per i dati che non sono di tipo sparse.

    Questo algoritmo supporta una combinazione lineare di valori di regolarizzazione L1 e L2, ovvero se x = L1 e y = L2, ax + by = c definisce l'intervallo lineare dei termini di regolarizzazione.

    Nota

    Vuoi saperne di più sulla regolarizzazione L1 e L2? L'articolo seguente illustra in che modo la regolarizzazione L1 e L2 sono diverse e come influiscono sull'adattamento del modello, con esempi di codice per i modelli di rete logistica e neurale: L1 e L2 Regolarizzazione per Machine Learning

    Sono state concepite diverse combinazioni lineari di termini L1 e L2 per i modelli di regressione logistica, ad esempio la regolarizzazione della rete elastica. È consigliabile fare riferimento a queste combinazioni per definire una combinazione lineare efficace nel modello.

  5. Per Dimensioni memoria per L-BFGS, specificare la quantità di memoria da usare per l'ottimizzazione L-BFGS .

    L-BFGS è l'acronimo di "limited memory Broyden-Fletcher-Goldfarb-Shanno". Si tratta di un algoritmo di ottimizzazione diffuso per la stima dei parametri. Questo parametro indica il numero di posizioni e sfumature passate da archiviare per il calcolo del passaggio successivo.

    Questo parametro di ottimizzazione limita la quantità di memoria usata per calcolare il passaggio e la direzione successivi. Quando si specifica meno memoria, il training è più veloce ma meno accurato.

  6. Per Valore di inizializzazione numero casuale digitare un valore intero. La definizione di un valore di inizializzazione è importante se si vuole che i risultati siano riproducibili su più esecuzioni della stessa pipeline.

  7. Aggiungere un set di dati etichettato alla pipeline ed eseguire il training del modello:

    • Se si imposta Create trainer mode (Crea modalità trainer) su Single Parameter (Parametro singolo), connettere un set di dati con tag e il componente Train Model (Train Model ).

    • Se si imposta La modalità di training su Intervallo di parametri, connettere un set di dati con tag ed eseguire il training del modello usando Ottimizzazione degli iperparametri del modello.

    Nota

    Se si passa un intervallo di parametri a Train Model, viene usato solo il valore predefinito nell'elenco dei singoli parametri.

    Se si passa un singolo set di valori di parametro al componente Tune Model Hyperparameters , quando prevede un intervallo di impostazioni per ogni parametro, ignora i valori e usa i valori predefiniti per lo strumento di apprendimento.

    Se si seleziona l'opzione Intervallo di parametri e si immette un singolo valore per qualsiasi parametro, tale singolo valore specificato viene usato durante lo sweep, anche se altri parametri cambiano in un intervallo di valori.

  8. Inviare la pipeline.

Risultati

Al termine del training:

  • Per eseguire stime sui nuovi dati, usare il modello sottoposto a training e i nuovi dati come input per il componente Score Model .

Passaggi successivi

Vedere il set di componenti disponibili per Azure Machine Learning.