Métodos de discretização (mineração de dados)

Artigo
07/30/2013

Alguns algoritmos usados para criar modelos de mineração de dados no SQL Server Analysis Services precisam de tipos de conteúdo específicos para que funcionem corretamente. Por exemplo, o algoritmo Microsoft Naive Bayes não pode usar colunas contínuas como entrada nem prever valores contínuos. Além disso, algumas colunas podem conter tantos valores que o algoritmo não pode identificar facilmente os padrões interessantes nos dados dos quais criar um modelo.

Nesses casos, é possível discretizar os dados nas colunas de modo a permitir o uso dos algoritmos para produzir um modelo de mineração. Discretização é o processo de colocar valores em buckets de modo que haja um número limitado de possíveis estados. Os próprios blocos são tratados como valores ordenados e discretos. Você pode discretizar tanto as colunas numéricos quanto as colunas de cadeia de caracteres.

Há vários métodos que você pode usar para discretizar dados. Se sua solução de mineração de dados usar dados relacionais, será possível controlar o número de buckets usado para agrupamento de dados com a definição do valor da propriedade DiscretizationBucketCount. O número padrão de recipientes é 5.

Se sua solução de mineração de dados usar dados de um cubo OLAP (processamento analítico online), o algoritmo de mineração de dados computará automaticamente o número de recipientes a serem gerados usando a seguinte equação, em que n é o número de valores distintos de dados na coluna:

Number of Buckets = sqrt(n)

Se você não quiser que o Analysis Services calcule o número de buckets, é possível usar a propriedade DiscretizationBucketCount para especificar isso manualmente.

A tabela a seguir descreve os métodos que podem ser usados para discretizar os dados no Analysis Services.

Método de discretização	Descrição
AUTOMATIC	O Analysis Services determina o método de discretização a ser usado.
CLUSTERS	O algoritmo divide os dados em grupos por meio de amostragem dos dados de treinamento, inicializando um número aleatório de pontos e em seguida executando várias interações do algoritmo Microsoft Clustering usando o método de clustering Expectation Maximization (EM). O método CLUSTERS é útil pois trabalha em qualquer curva de distribuição. Porém, requer mais tempo de processamento que os demais métodos de discretização. Esse método pode ser usado apenas com colunas numéricas.
EQUAL_AREAS	O algoritmo divide os dados em grupos que contenham um número igual de valores. Esse método é usado mais na distribuição normal das curvas, mas não funciona corretamente se a distribuição incluir um grande número de valores que ocorre em um grupo estreito em dados contínuos. Por exemplo, se a metade dos itens tiver um custo zero, a metade dos dados ocorrerá em um único ponto na curva. Nessa distribuição, o método quebra os dados em uma tentativa de estabelecer uma discretização igual em várias áreas. Isso produz uma representação inexata dos dados.

AUTOMATIC

O Analysis Services determina o método de discretização a ser usado.

CLUSTERS

O algoritmo divide os dados em grupos por meio de amostragem dos dados de treinamento, inicializando um número aleatório de pontos e em seguida executando várias interações do algoritmo Microsoft Clustering usando o método de clustering Expectation Maximization (EM). O método CLUSTERS é útil pois trabalha em qualquer curva de distribuição. Porém, requer mais tempo de processamento que os demais métodos de discretização.

Esse método pode ser usado apenas com colunas numéricas.

EQUAL_AREAS

O algoritmo divide os dados em grupos que contenham um número igual de valores. Esse método é usado mais na distribuição normal das curvas, mas não funciona corretamente se a distribuição incluir um grande número de valores que ocorre em um grupo estreito em dados contínuos. Por exemplo, se a metade dos itens tiver um custo zero, a metade dos dados ocorrerá em um único ponto na curva. Nessa distribuição, o método quebra os dados em uma tentativa de estabelecer uma discretização igual em várias áreas. Isso produz uma representação inexata dos dados.

Comentários

Você pode usar o método EQUAL_AREAS para discretizar as cadeias de caracteres.
O método CLUSTERS usa um exemplo aleatório de 1000 registros para discretizar os dados. Use o método EQUAL_AREAS se não quiser que o algoritmo realize a amostragem dos dados.
O tutorial de modelo de mineração de rede neural fornece um exemplo de como a discretização pode ser personalizada. Para obter mais informações, consulte Lição 5: Criando modelos de rede neural e de regressão logística (Tutorial de mineração de dados intermediário).