Distribuzioni delle colonne (Data mining)

In MicrosoftSQL ServerAnalysis Services è possibile definire le distribuzioni delle colonne di una struttura di data mining per determinare la modalità con cui gli algoritmi elaborano i dati di tali colonne durante la creazione dei modelli di data mining. Per alcuni algoritmi è utile definire la distribuzione delle colonne continue prima di elaborare il modello, se è noto che tali colonne contengono distribuzioni di valori comuni. Se non si definiscono le distribuzioni, i modelli di data mining risultanti possono produrre stime meno accurate, poiché gli algoritmi dispongono di una minore quantità di informazioni per l'interpretazione dei dati.

Gli algoritmi disponibili in Analysis Services supportano i tipi di distribuzioni seguenti:

  • Normal
    I valori della colonna continua formano un istogramma con una distribuzione normale.

    Istogramma con distribuzione normale

  • Log Normal
    I valori della colonna continua formano un istogramma in cui l'estremità superiore della curva è allungata e l'estremità inferiore è asimmetrica.

    Istogramma con distribuzione normale dei log

  • Uniform
    I valori della colonna continua formano una curva uniforme, in cui tutti i valori presentano la stessa probabilità.

    Istogramma con distribuzione uniforme

Per ulteriori informazioni sui logaritmi di Analysis Services, vedere Algoritmi di data mining (Analysis Services - Data mining).