Métodos de discretização (mineração de dados)

Alguns algoritmos usados para criar modelos de mineração de dados no SQL Server Analysis Services precisam de tipos de conteúdo específicos para que funcionem corretamente. Por exemplo, o algoritmo Microsoft Naive Bayes não pode usar colunas contínuas como entrada nem prever valores contínuos. Além disso, algumas colunas podem conter tantos valores que o algoritmo não pode identificar facilmente os padrões interessantes nos dados dos quais criar um modelo.

Nesses casos, é possível discretizar os dados nas colunas de modo a permitir o uso dos algoritmos para produzir um modelo de mineração. Discretização é o processo de colocar valores em buckets de modo que haja um número limitado de possíveis estados. Os próprios blocos são tratados como valores ordenados e discretos. Você pode discretizar tanto as colunas numéricos quanto as colunas de cadeia de caracteres.

Há vários métodos que você pode usar para discretizar dados. Se sua solução de mineração de dados usar dados relacionais, será possível controlar o número de buckets usado para agrupamento de dados com a definição do valor da propriedade DiscretizationBucketCount. O número padrão de recipientes é 5.

Se sua solução de mineração de dados usar dados de um cubo OLAP (Online Analytical Processing), o algoritmo de mineração de dados computará automaticamente o número de recipientes a serem gerados usando a seguinte equação, em que n é o número de valores distintos de dados na coluna:

Number of Buckets = sqrt(n)

Se você não quiser que o Analysis Services calcule o número de buckets, é possível usar a propriedade DiscretizationBucketCount para especificar isso manualmente.

A tabela a seguir descreve os métodos que podem ser usados para discretizar os dados no Analysis Services.

Método de discretização

Descrição

AUTOMATIC

O Analysis Services determina o método de discretização a ser usado.

CLUSTERS

O algoritmo divide os dados em grupos por meio de amostragem dos dados de treinamento, inicializando um número aleatório de pontos e em seguida executando várias interações do algoritmo Microsoft Clustering usando o método de clustering Expectation Maximization (EM). O método CLUSTERS é útil pois trabalha em qualquer curva de distribuição. Porém, requer mais tempo de processamento que os demais métodos de discretização.

Esse método pode ser usado apenas com colunas numéricas.

EQUAL_AREAS

O algoritmo divide os dados em grupos que contenham um número igual de valores. Esse método é usado mais na distribuição normal das curvas, mas não funciona corretamente se a distribuição incluir um grande número de valores que ocorre em um grupo estreito em dados contínuos. Por exemplo, se a metade dos itens tiver um custo zero, a metade dos dados ocorrerá em um único ponto na curva. Nessa distribuição, o método quebra os dados em uma tentativa de estabelecer uma discretização igual em várias áreas. Isso produz uma representação inexata dos dados.

Comentários