列分布(数据挖掘)

在 Microsoft SQL Server Analysis Services 中,可以在挖掘结构中定义列分布,以在创建挖掘模型时影响算法处理这些列中数据的方式。 对于某些算法,如果已知列中包含常用的值分布,则在处理模型之前定义任意连续列的分布将非常有用。 如果不定义分布,则由于算法据以解释数据的信息较少,生成的挖掘模型产生的预测可能不如定义了分布时产生的预测精确。

Analysis Services 中提供的算法支持以下分发类型:

Normal 连续列的值构成具有正态分布的直方图。

具有正态分布的

Log Normal 连续列的值形成一个直方图,其中曲线在上端延伸,并倾斜到下端。

具有对数正态分布

Uniform 连续列的值形成一条平坦的曲线,其中所有值的可能性均等。

具有统一分布

有关 Analysis Services 提供的算法的详细信息,请参阅 数据挖掘算法 (Analysis Services - 数据挖掘)

另请参阅

内容类型 (数据挖掘) 挖掘结构 (Analysis Services - 数据挖掘) 离散化方法 (数据挖掘) 分布 (DMX) 挖掘结构列