Algoritmo Microsoft Naive Bayes
Si applica a: SQL Server 2019 e versioni precedenti di Analysis Services Azure Analysis Services Fabric/Power BI Premium
Importante
Il data mining è stato deprecato in SQL Server 2017 Analysis Services e ora è stato interrotto in SQL Server 2022 Analysis Services. La documentazione non viene aggiornata per le funzionalità deprecate e non più disponibili. Per altre informazioni, vedere Compatibilità con le versioni precedenti di Analysis Services.
L'algoritmo Microsoft Naive Bayes è un algoritmo di classificazione basato sui teoremi di Bayes e può essere usato per la modellazione esplorativa e predittiva. La parola naive nel nome Naive Bayes deriva dal fatto che nell'algoritmo vengono utilizzate tecniche di Bayes, ma non vengono considerate le dipendenze eventualmente presenti.
Questo algoritmo è meno intenso di calcolo rispetto ad altri algoritmi Microsoft e pertanto è utile per generare rapidamente modelli di data mining per individuare le relazioni tra colonne di input e colonne prevedibili. È possibile utilizzare questo algoritmo per eseguire l'esplorazione iniziale dei dati e applicare successivamente i risultati ottenuti per creare modelli di data mining aggiuntivi con altri algoritmi dotati di funzionalità di calcolo più avanzate e accurate.
Esempio
Come strategia promozionale continuativa, il reparto marketing dell'azienda Adventure Works Cycle ha deciso di inviare volantini ai potenziali clienti mediante mailing diretto. Per ridurre i costi, i volantini verranno inviati solo ai clienti che probabilmente risponderanno. L'azienda archivia in un database le informazioni demografiche e relative alla risposta dei clienti a un mailing precedente. L'obiettivo è analizzare tali dati per scoprire in che modo è possibile utilizzare informazioni demografiche come l'età e il luogo di residenza per eseguire la stima relativa alla risposta a una promozione, confrontando i potenziali clienti con quelli che presentano caratteristiche analoghe e in passato hanno acquistato prodotti dell'azienda. In particolare, si intende esaminare le differenze tra i clienti che hanno acquistato una bicicletta e quelli che non l'hanno acquistata.
Usando l'algoritmo Microsoft Naive Bayes, il reparto marketing può prevedere rapidamente un risultato per un determinato profilo cliente e può quindi determinare quali clienti rispondono più probabilmente ai volantini. Usando Microsoft Naive Bayes Viewer in SQL Server Data Tools, possono anche analizzare visivamente le colonne di input che contribuiscono a risposte positive ai volatori.
Funzionamento dell'algoritmo
L'algoritmo Microsoft Naive Bayes calcola la probabilità di ogni stato di ogni colonna di input, dato ogni possibile stato della colonna stimabile.
Per comprendere il funzionamento di questa operazione, usare Microsoft Naive Bayes Viewer in SQL Server Data Tools (come illustrato nell'immagine seguente) per esplorare visivamente il modo in cui l'algoritmo distribuisce gli stati.
In questo caso, Microsoft Naive Bayes Viewer elenca ogni colonna di input nel set di dati e mostra come vengono distribuiti gli stati di ogni colonna, dato ogni stato della colonna stimabile.
Questa vista del modello consente di identificare le colonne di input significative ai fini della differenziazione degli stati della colonna stimabile.
Ad esempio, nella riga per Distanza dal lavoro qui indicata, la distribuzione dei valori di input è visibilmente diversa per gli acquirenti rispetto ai non acquirenti. Questo indica che l'input, Distanza dal lavoro = 0-1 chilometri, è un potenziale criterio di stima.
Il visualizzatore fornisce inoltre valori per le distribuzioni, pertanto è possibile visualizzare che, per i clienti che risiedono a una distanza dal posto di lavoro compresa tra uno e due chilometri, la probabilità che acquistino una bicicletta è pari a 0,387, mentre la probabilità che non effettuino tale acquisto è pari a 0,287. In questo esempio nell'algoritmo vengono utilizzate le informazioni numeriche derivate da caratteristiche del cliente, ad esempio la distanza dal posto di lavoro, per stimare se il cliente acquisterà una bicicletta.
Per altre informazioni sull'uso del Visualizzatore Microsoft Naive Bayes, vedere Sfoglia un modello usando il visualizzatore Microsoft Naive Bayes.
Dati necessari per i modelli Naive Bayes
Quando si preparano i dati da utilizzare per il training di un modello Naive Bayes, verificare che siano chiari i requisiti dell'algoritmo, tra cui la quantità di dati necessari e la modalità di utilizzo dei dati.
I requisiti di un modello Naive Bayes sono i seguenti:
Una colonna a chiave singola Ogni modello deve contenere una colonna numerica o di testo che identifichi in modo univoco ogni record. Le chiavi composte non sono consentite.
Colonne di input In un modello Naive Bayes tutte le colonne devono essere colonne discrete, oppure devono contenere valori suddivisi. Per informazioni su come discretizzare le colonne (bin), vedere Metodi di discretizzazione (data mining).
Le variabili possono essere indipendenti. Per un modello Naive Bayes, è importante verificare inoltre che gli attributi di input siano indipendenti uno dall'altro. Questo aspetto è particolarmente importante quando si utilizza il modello per la stima. L'uso di due colonne di dati già strettamente correlati comporterebbe un'influenza ancora maggiore di tali colonne e verrebbero pertanto messi in secondo piano gli altri fattori che influiscono sul risultato.
Viceversa, la possibilità dell'algoritmo di identificare le correlazioni fra variabili è utile quando si esplora un modello o un set di dati, per identificare le relazioni fra input.
Almeno una colonna stimabile Nell'attributo stimabile devono essere contenuti valori discreti o discretizzati.
I valori della colonna stimabile possono essere utilizzati come input. Ciò può essere utile quando si esplora un nuovo set di dati, per trovare le relazioni fra le colonne.
Visualizzazione del modello
Per esplorare il modello, è possibile usare il Visualizzatore Microsoft Naive Bayes. Nel visualizzatore viene illustrato il modo in cui gli attributi di input sono correlati all'attributo stimabile. Nel visualizzatore viene inoltre fornito un profilo dettagliato di ogni cluster, un elenco degli attributi che consentono di distinguere ogni cluster dagli altri e le caratteristiche dell'intero set di dati di training. Per altre informazioni, vedere Visualizzare un modello utilizzando il Visualizzatore Microsoft Naive Bayes.
Per altre informazioni dettagliate, è possibile esplorare il modello in Microsoft Generic Content Tree Viewer (Data Mining). Per altre informazioni sul tipo di informazioni archiviate nel modello, vedere Contenuto del modello di data mining per i modelli Naive Bayes (Analysis Services - Data Mining).
Esecuzione di stime
In seguito al training del modello, i risultati vengono archiviati come set di modelli, esplorabili o utilizzabili per eseguire stime.
È possibile creare query per restituire stime sul modo in cui i nuovi dati sono correlati all'attributo stimabile oppure recuperare statistiche che descrivono le correlazioni rilevate dal modello.
Per informazioni sulla creazione di query in base a un modello di data mining, vedere Query di data mining. Per esempi di come usare le query con un modello Naive Bayes, vedere Esempi di query sul modello Naive Bayes.
Commenti
Supporta l'utilizzo del linguaggio PMML (Predictive Model Markup Language) per la creazione di modelli di data mining.
Supporta il drill-through.
Non supporta la creazione di dimensioni di data mining.
Supporta l'utilizzo di modelli di data mining OLAP.
Vedere anche
Algoritmi di data mining (Analysis Services - Data mining)
Selezione delle caratteristiche (Data mining)
Esempi di query sul modello Naive Bayes
Contenuto dei modelli di data mining per i modelli Naive Bayes (Analysis Services - Data mining)
Riferimento tecnico per l'algoritmo Microsoft Naive Bayes