Distribuzioni delle colonne (Data mining)

Articolo
11/19/2013

In Microsoft SQL Server Analysis Services è possibile definire le distribuzioni delle colonne di una struttura di data mining per determinare la modalità con cui gli algoritmi elaborano i dati di tali colonne durante la creazione dei modelli di data mining. Per alcuni algoritmi è utile definire la distribuzione dei dati nelle colonne continue prima di elaborare il modello, se è noto che tali colonne contengono valori con distribuzioni comuni. Se non si definiscono le distribuzioni, i modelli di data mining risultanti possono produrre stime meno accurate, poiché gli algoritmi dispongono di una minore quantità di informazioni per l'interpretazione dei dati.

Gli algoritmi disponibili in Analysis Services supportano i tipi di distribuzioni seguenti:

Normal
I valori della colonna continua formano un istogramma con una distribuzione normale.
Log Normal
I valori della colonna continua formano un istogramma in cui l'estremità superiore della curva è allungata e l'estremità inferiore è asimmetrica.
Uniform
I valori della colonna continua formano una curva uniforme, in cui tutti i valori presentano la stessa probabilità.