Matrice di classificazione (Analysis Services - Data mining)
Si applica a: SQL Server 2019 e versioni precedenti di Analysis Services Azure Analysis Services Fabric/Power BI Premium
Importante
Il data mining è stato deprecato in SQL Server 2017 Analysis Services e ora è stato interrotto in SQL Server 2022 Analysis Services. La documentazione non viene aggiornata per le funzionalità deprecate e non più disponibili. Per altre informazioni, vedere Compatibilità con le versioni precedenti di Analysis Services.
Una matrice di classificazione consente di ordinare tutti i case del modello in categorie, determinando se il valore stimato corrisponde a quello effettivo. Vengono calcolati tutti i case di ogni categoria, quindi vengono visualizzati i totali nella matrice. La matrice di classificazione è uno strumento standard per la valutazione di modelli statistici, talvolta definita matrice di confusione.
Nel grafico creato quando si sceglie l'opzione Matrice di classificazione è possibile confrontare i valori effettivi con quelli stimati per ogni stato stimato specificato. Le righe nella matrice rappresentano i valori stimati per il modello, mentre le colonne rappresentano i valori effettivi. Le categorie usate nell'analisi sono falso positivo, vero positivo, falso negativoe vero negativo.
Una matrice di classificazione è uno strumento importante per valutare i risultati di una stima in quanto facilita la comprensione e la spiegazione degli effetti delle stime errate. Visualizzando la quantità e le percentuali in ogni cella di questa matrice, è possibile vedere con quale frequenza vengano eseguite stime accurate da parte del modello.
In questa sezione viene illustrato come creare una matrice di classificazione e come interpretarne i risultati.
Informazioni sulla matrice di classificazione
Si consideri il modello creato durante l'Esercitazione di base sul data mining. Il modello [TM_DecisionTree] consente di semplificare la creazione di una campagna di mailing diretto e può essere utilizzato per eseguire una stima dei clienti che con maggiore probabilità acquisteranno una bicicletta. Per testare l'utilità prevista di questo modello, è necessario utilizzare un set di dati per il quale i valori dell'attributo, [Bike Buyer], sono già noti. A tale scopo, viene in genere utilizzato il set di dati di testing riservato durante la creazione della struttura di data mining utilizzata per il training del modello.
È possibile ottenere solo due risultati, ovvero sì (è probabile che il cliente acquisti una bicicletta) e no (è probabile che il cliente non acquisti una bicicletta). Pertanto, la matrice di classificazione risultante è relativamente semplice.
Interpretazione dei risultati
Nella tabella seguente viene mostrata la matrice di classificazione per il modello TM_DecisionTree. Per questo attributo stimabile, 0 indica No mentre 1 indica Sì.
Stimati | 0 (valore effettivo) | 1 (valore effettivo) |
---|---|---|
0 | 362 | 144 |
1 | 121 | 373 |
La prima cella dei risultati, in cui è contenuto il valore 362, indica il numero di veri positivi per il valore 0. Poiché 0 significa che il cliente non ha acquistato una bicicletta, la statistica indica che il modello è stato in grado di eseguire una stima corretta per il valore relativo ai mancati acquirenti di biciclette in 362 case.
La cella immediatamente sottostante, che contiene il valore 121, indica il numero di falsi positivi, o il numero di volte in cui il modello ha erroneamente previsto che alcuni clienti avrebbero acquistato una bicicletta.
La cella che contiene il valore 144 indica il numero di falsi positivi per il valore 1. Poiché 1 significa che il cliente ha acquistato una bicicletta, questa statistica indica che in 144 case il modello ha stimato erroneamente che alcuni clienti non avrebbero acquistato una bicicletta.
La cella che contiene il valore 373, infine, indica il numero di veri positivi per il valore di destinazione 1. In altri termini, in 373 case il modello ha eseguito una stima corretta, prevedendo che alcuni clienti avrebbero acquistato una bicicletta.
Sommando i valori nelle celle adiacenti in diagonale, è possibile determinare l'accuratezza complessiva del modello. Una diagonale indica il numero complessivo di stime accurate, mentre l'altra indica il numero totale di stime errate.
Utilizzo di più valori stimabili
Il case [Bike Buyer] è particolarmente semplice da interpretare perché vi sono solo due valori possibili. Quando l'attributo stimabile ha più valori possibili, la matrice di classificazione aggiunge una nuova colonna per ogni valore effettivo possibile, quindi conteggia il numero di corrispondenze per ciascun valore stimato. Nella tabella seguente vengono illustrati i risultati di un modello diverso in cui sono possibili tre valori: 0, 1 e 2.
Stimati | 0 (valore effettivo) | 1 (valore effettivo) | 2 (valore effettivo) |
---|---|---|---|
0 | 111 | 3 | 5 |
1 | 2 | 123 | 17 |
2 | 19 | 0 | 20 |
Benché l'aggiunta di più colonne renda più complesso l'aspetto del report, il dettaglio aggiuntivo può rivelarsi molto utile quando si desidera valutare il costo cumulativo di una stima errata. Per creare somme sulle diagonali o confrontare i risultati per diverse combinazioni di righe, è possibile fare clic sul pulsante Copia disponibile nella scheda Matrice di classificazione e incollare il report in Excel. In alternativa, è possibile usare un client, ad esempio il client di data mining per Excel, che supporta SQL Server 2005 (9.x) e versioni successive, per creare un report di classificazione direttamente in Excel che include sia conteggi che percentuali. Per altre informazioni, vedere SQL Server Data Mining.
Restrizioni sulla matrice di classificazione
Una matrice di classificazione può essere utilizzata solo con attributi stimabili discreti.
Anche se è possibile aggiungere più modelli quando si selezionano modelli nella scheda Selezione input della finestra di progettazione Grafico accuratezza modello di data mining , nella scheda Matrice di classificazione verrà visualizzata una matrice separata per ogni modello.
Contenuto correlato
Negli argomenti seguenti sono contenute ulteriori informazioni su come sia possibile compilare e utilizzare le matrici di classificazione ed altri grafici.
Argomenti | Collegamenti |
---|---|
Vengono illustrati i tipi di grafici correlati. | Grafico di accuratezza (Analysis Services - Data mining) Grafico profitti (Analysis Services - Data mining) Grafico a dispersione (Analysis Services - Data mining) |
Vengono descritti gli utilizzi della convalida incrociata per modelli e strutture di data mining. | Convalida incrociata (Analysis Services - Data mining) |
Vengono descritti i passaggi per la creazione di grafici di accuratezza e di altri grafici simili. | Attività e procedure di test e convalida (data mining) |