Tipi di Machine Learning

Completato

Esistono più tipi di Machine Learning ed è necessario applicare il tipo appropriato a seconda di ciò che si sta tentando di prevedere. Una suddivisione dei tipi comuni di Machine Learning è illustrata nel diagramma seguente.

Diagram showing supervised machine learning (regression and classification) and unsupervised machine learning (clustering).

Apprendimento automatico con supervisione

Il Machine Learning con supervisione è un termine generale per gli algoritmi di Machine Learning in cui i dati di training includono sia valori di funzionalità che valori di etichetta noti. Il Machine Learning supervisionato viene usato per eseguire il training dei modelli determinando una relazione tra le funzionalità e le etichette nelle osservazioni precedenti, in modo che le etichette sconosciute possano essere stimate per le funzionalità in casi futuri.

Regressione

La regressione è una forma di Machine Learning con supervisione in cui l'etichetta stimata dal modello è un valore numerico. Ad esempio:

  • Il numero di gelati venduti in un determinato giorno, in base alla temperatura, alle precipitazioni e alla velocità del vento.
  • Il prezzo di vendita di una proprietà in base alle sue dimensioni in piedi quadrati, il numero di camere da letto che contiene e metriche socio-economiche per la sua posizione.
  • L'efficienza del carburante (in miglia per gallone) di un'auto in base alle dimensioni del motore, al peso, alla larghezza, all'altezza e alla lunghezza.

Classificazione

La classificazione è una forma di Machine Learning con supervisione in cui l'etichetta rappresenta una categorizzazione o una classe. Esistono due scenari di classificazione comuni.

Classificazione binaria

Nella classificazione binaria, l'etichetta determina se l'elemento osservato è (o non è) un'istanza di una classe specifica. In alternativa, i modelli di classificazione binaria prevedono uno dei due risultati esclusivi a vicenda. Ad esempio:

  • Se un paziente è a rischio di diabete in base a metriche cliniche come peso, età, livello di glucosio del sangue e così via.
  • Se un cliente bancario avrà un valore predefinito in base al reddito, alla cronologia del credito, all'età e ad altri fattori.
  • Se un cliente della lista di distribuzione risponderà positivamente a un'offerta di marketing in base agli attributi demografici e agli acquisti passati.

In tutti questi esempi, il modello stima una stima binaria true/false o positiva/negativa per una singola classe possibile.

Classificazione multi-classe

La classificazione multiclasse estende la classificazione binaria per stimare un'etichetta che rappresenta una delle più classi possibili. ad esempio:

  • Le specie di pinguino (Adelie, Gentoo o Chinstrap) in base alle sue misurazioni fisiche.
  • Il genere di un film (commedia, orrore, romanticismo, avventura o fantascienza) basato sul suo cast, regista e budget.

Nella maggior parte degli scenari che coinvolgono un set noto di più classi, la classificazione multiclasse viene usata per stimare etichette esclusive reciprocamente. Ad esempio, un pinguino non può essere sia un Gentoo che un Adelie. Tuttavia, esistono anche alcuni algoritmi che è possibile usare per eseguire il training di modelli di classificazione multietichetta, in cui possono essere presenti più etichette valide per una singola osservazione. Ad esempio, un film potrebbe essere categorizzato sia come fantascienza che come commedia.

Apprendimento automatico senza supervisione

L'apprendimento automatico senza supervisione prevede il training di modelli che usano dati costituiti solo da valori di funzionalità senza etichette note. Gli algoritmi di Machine Learning senza supervisione determinano relazioni tra le funzionalità delle osservazioni nei dati di training.

Clustering

La forma più comune di Machine Learning senza supervisione è il clustering. Un algoritmo di clustering identifica le somiglianze tra le osservazioni in base alle relative funzionalità e le raggruppa in cluster discreti. Ad esempio:

  • Raggruppare fiori simili in base alle loro dimensioni, al numero di foglie e al numero di petali.
  • Identificare i gruppi di clienti simili in base agli attributi demografici e al comportamento di acquisto.

Per alcuni versi, il clustering è simile alla classificazione multiclasse, poiché categorizza le osservazioni in gruppi discreti. La differenza è che quando si usa la classificazione, si conoscono già le classi a cui appartengono le osservazioni nei dati di training; quindi l'algoritmo funziona determinando la relazione tra le funzionalità e l'etichetta di classificazione nota. Nel clustering non esiste un'etichetta cluster nota in precedenza e l'algoritmo raggruppa le osservazioni dei dati in base alla somiglianza delle funzionalità.

In alcuni casi, il clustering viene usato per determinare il set di classi esistenti prima di eseguire il training di un modello di classificazione. Ad esempio, è possibile usare il clustering per segmentare i clienti in gruppi e quindi analizzare tali gruppi per identificare e classificare diverse classi di clienti (valore elevato - volume ridotto, acquirente frequente per piccoli acquisti e così via). È quindi possibile usare le categorizzazioni per etichettare le osservazioni nei risultati del clustering e usare i dati etichettati per eseguire il training di un modello di classificazione che prevede la categoria di clienti a cui potrebbe appartenere un nuovo cliente.