Articolo
03/31/2012

Algoritmo Microsoft Naive Bayes

L'algoritmo Microsoft Naive Bayes è un algoritmo di classificazione per la modellazione predittiva incluso in Microsoft SQL Server Analysis Services. Il nome Naive Bayes deriva dal fatto che l'algoritmo utilizza il teorema di Bayes, ma non considera le dipendenze eventualmente presenti, di conseguenza i presupposti vengono definiti "naive".

Questo algoritmo include funzionalità di calcolo più semplici di quelle di altri algoritmi Microsoft e, pertanto, è utile per generare rapidamente i modelli di data mining al fine di individuare le relazioni tra colonne di input e stimabili. È possibile utilizzare questo algoritmo per eseguire l'esplorazione iniziale dei dati e applicare successivamente i risultati ottenuti per creare modelli di data mining aggiuntivi con altri algoritmi dotati di funzionalità di calcolo più avanzate e accurate.

Esempio

Come strategia promozionale continuativa, il reparto marketing dell'azienda Adventure Works Cycle ha deciso di inviare volantini ai potenziali clienti mediante mailing diretto. Per ridurre i costi, i volantini verranno inviati solo ai clienti che probabilmente risponderanno. L'azienda archivia in un database le informazioni demografiche e relative alla risposta dei clienti a un mailing precedente. L'obiettivo è analizzare tali dati per scoprire in che modo è possibile utilizzare informazioni demografiche come l'età e il luogo di residenza per eseguire la stima relativa alla risposta a una promozione, confrontando i potenziali clienti con quelli che presentano caratteristiche analoghe e in passato hanno acquistato prodotti dell'azienda. In particolare, si intende esaminare le differenze tra i clienti che hanno acquistato una bicicletta e quelli che non l'hanno acquistata.

Tramite l'algoritmo Microsoft Naive Bayes, il reparto marketing può eseguire rapidamente la stima relativa al profilo di un cliente specifico e determinare quindi i clienti che, con maggiore probabilità, risponderanno ai volantini. Mediante il Visualizzatore Microsoft Naive Bayes disponibile in Business Intelligence Development Studio, il reparto può inoltre individuare visivamente in modo specifico le colonne di input che contribuiscono alle risposte positive ai volantini.

Funzionamento dell'algoritmo

L'algoritmo Microsoft Naive Bayes calcola la probabilità di ogni stato per ogni colonna di input, considerando ogni stato possibile della colonna stimabile. È possibile utilizzare il Visualizzatore Microsoft Naive Bayes in Business Intelligence Development Studio per ottenere una rappresentazione visiva della distribuzione degli stati eseguita dall'algoritmo, come illustrato nel grafico seguente.

Distribuzione degli stati Naive Bayes

Il Visualizzatore Microsoft Naive Bayes elenca ogni colonna di input nel set di dati e mostra la distribuzione degli stati corrispondenti, considerando ogni stato della colonna stimabile. Questa vista consente di identificare le colonne di input significative ai fini della differenziazione degli stati della colonna stimabile. Ad esempio, nella colonna Commute Distance illustrata, se il cliente risiede a una distanza dal posto di lavoro compresa tra uno e due chilometri, la probabilità che tale cliente acquisti una bicicletta è pari a 0,387, mentre la probabilità che non acquisti una bicicletta è pari a 0,287. In questo esempio, l'algoritmo utilizza le informazioni numeriche derivate da caratteristiche del cliente, ad esempio la distanza dal posto di lavoro, per stimare se il cliente acquisterà una bicicletta. Per ulteriori informazioni sull'utilizzo del Visualizzatore Microsoft Naive Bayes, vedere Visualizzazione di un modello di data mining con il Visualizzatore Microsoft Naive Bayes.

Dati necessari per i modelli Naive Bayes

Quando si preparano i dati da utilizzare per il training di un modello Naive Bayes, verificare che siano chiari i requisiti dell'algoritmo, tra cui la quantità di dati necessari e la modalità di utilizzo dei dati.

I requisiti di un modello Naive Bayes sono i seguenti:

Una colonna a chiave singola Ogni modello deve contenere una colonna numerica o di testo che identifichi in modo univoco ogni record. Le chiavi composte non sono consentite.
Colonne di input In un modello Naive Bayes tutte le colonne devono essere colonne discrete o discretizzate. Per informazioni sulla discretizzazione delle colonne, vedere Metodi di discretizzazione (data mining). Per un modello Naive Bayes, è importante verificare che gli attributi di input siano indipendenti uno dall'altro.
Almeno una colonna stimabile L'attributo stimabile deve contenere valori discreti o discretizzati. Come spesso avviene, i valori della colonna stimabile possono essere considerati come input per trovare relazioni tra le colonne.

Visualizzazione del modello

Per esplorare il modello, è possibile utilizzare il Visualizzatore Microsoft Naive Bayes. Nel visualizzatore viene illustrato il modo in cui gli attributi di input sono correlati all'attributo stimabile. Nel visualizzatore viene inoltre fornito un profilo dettagliato di ogni cluster, un elenco degli attributi che consentono di distinguere ogni cluster dagli altri e le caratteristiche dell'intero set di dati di training. Per ulteriori informazioni, vedere Visualizzazione di un modello di data mining con il Visualizzatore Microsoft Naive Bayes.

Per conoscere ulteriori dettagli, è possibile esplorare il modello in Microsoft Generic Content Tree Viewer (Progettazione modelli di data mining). Per ulteriori informazioni sul tipo di informazioni archiviate nel modello, vedere Contenuto dei modelli di data mining per i modelli Naive Bayes (Analysis Services - Data mining).

Esecuzione di stime

In seguito al training del modello, i risultati vengono archiviati come set di modelli, esplorabili o utilizzabili per eseguire stime.

È possibile creare query per restituire stime sul modo in cui i nuovi dati sono correlati all'attributo stimabile oppure recuperare statistiche che descrivono le correlazioni rilevate dal modello.

Per informazioni sulla creazione di query in base a un modello di data mining, vedere Esecuzione di query sui modelli di data mining (Analysis Services - Data mining). Per esempi di come utilizzare le query con un modello Naive Bayes, vedere Esecuzione di una query su un modello Naive Bayes (Analysis Services - Data mining).

Osservazioni

Supporta l'utilizzo del linguaggio PMML (Predictive Model Markup Language) per la creazione di modelli di data mining.
Supporta il drill-through.
Non supporta la creazione di dimensioni di data mining.
Supporta l'utilizzo di modelli di data mining OLAP.