Artigo
09/28/2010

Matriz de classificação (Analysis Services - Mineração de dados)

A guia Matriz de Classificação da guia Gráfico de Precisão de Mineração do Designer de Mineração de Dados exibe uma matriz para cada modelo especificado na guia Seleção de Entrada. Ao exibir esse gráfico, às vezes referenciado como matriz de confusão, você pode verificar rapidamente com que freqüência o modelo previu com precisão.

As linhas para cada matriz representam os valores previstos para o modelo, sendo que as colunas representam os valores atuais. A matriz de classificação é criada classificando-se todos os casos em categorias: se o valor previsto correspondeu ao valor real e se estava correto ou incorreto. Às vezes, essas categorias são referenciadas como falsos positivos, verdadeiros positivos, falsos negativos e verdadeiros negativos. Todos os casos em cada categoria são contabilizados e os totais são exibidos na matriz.

Esta seção explica como criar uma matriz de classificação e como interpretar os resultados.

Observação
Uma matriz de classificação só pode ser usada com atributos previsíveis discretos.

Cenário

Por exemplo, considere o modelo que você criou como parte do Tutorial de mineração de dados básico. O modelo TM_DecisionTree, usado para ajudar a criar uma campanha de mala direta, pode ser usado para prever os clientes com maior probabilidade de comprar uma bicicleta. Se existe a possibilidade de o cliente comprar uma bicicleta, o valor da coluna [Bike Buyer] é 1; se não existe, o valor da coluna [Bike Buyer] é 0.

Para avaliar a eficácia do modelo para fazer previsões, teste-o novamente usando um conjunto de dados para o qual os valores de [Bike Buyer] já são conhecidos. Normalmente, você usa um conjunto de dados de teste que foi reservado durante a criação da estrutura de mineração usada para treinar o modelo. Como esses dados já contêm os resultados reais, você poderá determinar rapidamente quantas vezes o modelo previu o valor esperado.

Entendendo a matriz de classificação

A tabela a seguir mostra os resultados quando uma matriz de classificação é criada para o modelo TM_DecisionTree. Como só há dois valores possíveis para esse atributo previsível, 0 e 1, é razoavelmente fácil indicar quantas vezes o modelo fez uma previsão correta.

Previsto	0 (Real)	1 (Real)
0	362	144
1	121	373

A primeira célula de resultado, que contém o valor 362, indica o número de verdadeiros positivos para obter o valor 0. Como 0 indica que o cliente não comprou a bicicleta, essa estatística indica que o modelo previu o valor correto para pessoas que não compram bicicletas em 362 casos.

A célula logo abaixo dessa, que contém o valor 121, indica o número de falsos positivos ou quantas vezes o modelo previu que alguém compraria uma bicicleta, mas a compra não se concretizou.

A célula que contém o valor 144 indica o número de falsos positivos para o valor 1. Como 1 significa que o cliente não comprou a bicicleta, essa estatística indica que em 144 casos, o modelo previu que alguém não compraria a bicicleta, mas na verdade a compra se concretizou.

Finalmente, a célula que contém o valor 373 indica o número de verdadeiros positivos para o valor de destino 1. Em outras palavras, em 373 casos, o modelo previu corretamente que alguém compraria uma bicicleta.

Somando os valores das células que são diagonalmente adjacentes, você pode determinar a exatidão geral do modelo. Uma diagonal mostra o número de previsões corretas, e a outra diagonal mostra o número de previsões incorretas.

Usando vários valores previsíveis

O caso [Bike Buyer] é especialmente fácil de ser interpretado porque há apenas dois valores possíveis. Quando o atributo previsível tem vários valores possíveis, a matriz de classificação adiciona uma nova coluna a cada valor real possível e depois calcula o número de correspondências para cada valor previsto. A tabela a seguir mostra os resultados em um modelo diferente, onde três valores (0, 1 e 2) são possíveis.

Previsto	0 (Real)	1 (Real)	2 (Real)
0	111	3	5
1	2	123	17
2	19	0	20

Apesar de a adição de mais colunas tornar o relatório aparentemente mais complexo, detalhes adicionais podem ser úteis quando queremos avaliar o custo de uma previsão incorreta. Para criar somas nas diagonais ou comparar resultados para diferentes combinações de linhas, você pode clicar no botão Copiar, presente na guia Matriz de Classificação, e colar o relatório no Excel. Como alternativa, você pode usar um cliente, como o Cliente de Migração de Dados para Excel que oferece suporte ao SQL Server 2005 e SQL Server 2008, para criar um relatório de classificação diretamente no Excel que inclua os cálculos e as porcentagens. Para obter mais informações, consulte Mineração de Dados do SQL Server.

Criando uma matriz de classificação

Ao criar uma matriz de classificação, você segue estas etapas básicas:

Em Gráfico de Previsão de Mineração do Designer de Mineração de Dados, clique na guia Seleção de Entrada.
Na guia Seleção de Entrada, selecione um modelo para avaliar.
Especifique o atributo previsível e, opcionalmente, o valor previsível.
Escolha o conjunto de dados para usar na avaliação.
Clique na guia Matriz de Classificação para gerar, automaticamente, um relatório no formato de matriz de classificação.