Formule per la convalida incrociata
Quando viene generato, un report di convalida incrociata contiene misure di accuratezza per ogni modello, a seconda del tipo di modello di data mining (ovvero dell'algoritmo utilizzato per creare il modello), del tipo di dati dell'attributo stimabile e del valore dell'attributo stimabile, se presente.
In questa sezione vengono elencate le misure utilizzate nel report di convalida incrociata e viene descritto il metodo di calcolo.
Per una descrizione dettagliata delle misure di accuratezza in base al tipo di modello, vedere Misure nel report di convalida incrociata.
Formule utilizzate per le misure di convalida incrociata
[!NOTA]
Importante: queste misure di accuratezza vengono calcolate per ogni attributo di destinazione. Per ogni attributo è possibile specificare o omettere un valore di destinazione. Se un case nel set di dati non dispone di alcun valore per l'attributo di destinazione, il case viene trattato come se avesse un valore speciale denominato valore mancante. Le righe associate a valori mancanti non vengono conteggiate durante il calcolo della misura di accuratezza per un attributo di destinazione specifico. Si noti che poiché i punteggi vengono calcolati singolarmente per ogni attributo, se i valori sono presenti per l'attributo di destinazione, ma mancanti per altri attributi, questa situazione non influisce sul punteggio per l'attributo di destinazione.
Misura |
Si applica a |
Implementazione |
---|---|---|
Vero positivo |
Attributo discreto, il valore viene specificato |
Conteggio di case che soddisfano le condizioni seguenti:
|
Vero negativo |
Attributo discreto, il valore viene specificato |
Conteggio di case che soddisfano le condizioni seguenti:
|
Falso positivo |
Attributo discreto, il valore viene specificato |
Conteggio di case che soddisfano le condizioni seguenti:
|
Falso negativo |
Attributo discreto, il valore viene specificato |
Conteggio di case che soddisfano le condizioni seguenti:
|
Test superato/Test non superato |
Attributo discreto, nessuna destinazione specificata |
Conteggio di case che soddisfano le condizioni seguenti:
|
Accuratezza |
Attributo discreto. Il valore di destinazione può essere specificato ma non è obbligatorio. |
Probabilità in forma logaritmica media per tutte le righe con valori per l'attributo di destinazione in cui la probabilità in forma logaritmica per ogni case viene calcolata come Log(ActualProbability/MarginalProbability). Per calcolare la media, la somma dei valori di probabilità in forma logaritmica viene divisa per il numero di righe nel set di dati di input, escluse le righe con valori mancanti per l'attributo di destinazione. Il valore dell'accuratezza può essere positivo o negativo. Un valore positivo indica un modello efficace con prestazioni migliori rispetto all'ipotesi casuale. |
Punteggio in forma logaritmica |
Attributo discreto. Il valore di destinazione può essere specificato ma non è obbligatorio. |
Logaritmo della probabilità effettiva per ciascun case, sommato e quindi diviso per il numero di righe nel set di dati di input, escluse le righe con valori mancanti per l'attributo di destinazione. Poiché la probabilità è rappresentata come frazione decimale, i punteggi in forma logaritmica sono sempre numeri negativi. Un punteggio più vicino a 0 corrisponde a un punteggio migliore. |
Probabilità del case |
Cluster |
Somma dei punteggi di probabilità del cluster per tutti i case, divisa per il numero di case nella partizione, escluse le righe con valori mancanti per l'attributo di destinazione. |
Errore assoluto medio |
Attributo continuo |
Somma dell'errore assoluto per tutti i case della partizione, divisa per il numero di case nella partizione. |
Radice errore quadratico medio |
Attributo continuo |
Radice quadrata dell'errore quadratico medio della partizione. |
Radice errore quadratico medio |
Attributo discreto. Il valore di destinazione può essere specificato ma non è obbligatorio. |
Radice quadrata della media dei quadrati di complemento del punteggio di probabilità, divisa per il numero di case nella partizione, escluse le righe con valori mancanti per l'attributo di destinazione. |
Radice errore quadratico medio |
Attributo discreto, nessuna destinazione specificata. |
Radice quadrata della media dei quadrati di complemento del punteggio di probabilità, divisa per il numero di case nella partizione, esclusi i case con valori mancanti per l'attributo di destinazione. |