Explorando o modelo de clustering (Tutorial de mineração de dados básico)

O algoritmo Clustering da Microsoft agrupa casos em clusters que contêm características semelhantes. Esses agrupamentos são úteis para explorar dados, identificando anomalias nos dados e criar previsões.

O Visualizador de Cluster da Microsoft fornece as seguintes guias para serem usadas na exploração de modelos de mineração de cluster:

Diagrama de Cluster

Perfis de Cluster

Características do Cluster

Distinção de Cluster

As seções a seguir descrevem como selecionar o visualizador apropriado e explorar os outros modelos de mineração.

Guia Diagrama de Cluster

A guia Diagrama de Cluster exibe todos os clusters existentes em um modelo de mineração. As linhas entre os clusters representam "proximidade" e estão sombreadas com base no grau de semelhança que os clusters têm. A cor real de cada cluster representa a frequência da variável e o estado no cluster.

Para explorar o modelo na guia Diagrama de Cluster

  1. Use a lista Modelo de Mineração na parte superior da guia Visualizador do Modelo de Mineração para alternar para o modelo TM_Clustering.

  2. Na lista Visualizador, selecione Visualizador de Clusters da Microsoft.

  3. Na caixa Variável de Sombreamento, selecione Comprador de Bicicleta.

    A variável padrão é População, mas você pode alterar isso para qualquer atributo do modelo para descobrir quais clusters contêm membros que têm os atributos desejados.

  4. Selecione 1 na caixa Estado para explorar os casos em que uma bicicleta foi comprada.

    A legenda Densidade descreve a densidade do par de estados do atributo selecionado na Variável de Sombreamento e no Estado. Este exemplo nos mostra que o cluster com o sombreamento mais escuro tem a maior porcentagem de compradores de bicicleta.

  5. Coloque o seu mouse sobre o cluster com o sombreamento mais escuro.

    Uma dica de ferramenta exibe a porcentagem de casos que têm o atributo Bike Buyer = 1.

  6. Selecione o cluster com a densidade mais alta, clique com o botão direito do mouse nele, selecione Renomear Cluster e digite Bike Buyers High para identificação posterior. Clique em OK.

  7. Localize o cluster com o sombreamento mais claro (e a menor densidade). Clique com o botão direito do mouse no cluster, selecione Renomear Cluster e digite Bike Buyers Low. Clique em OK.

  8. Clique no cluster Altos Compradores de Bicicleta e arraste-o para uma área do painel que oferecerá a você uma visão clara de suas conexões com os outros clusters.

    Quando você seleciona um cluster, as linhas que conectam esse cluster a outros são realçadas para que você possa facilmente ver todas as relações desse cluster. Quando o cluster não estiver selecionado, você poderá dizer pela escuridão das linhas o grau de importância das relações entre todos os clusters do diagrama. Um sombreamento claro ou a ausência dele indica que os clusters não são muito parecidos.

  9. Use o controle deslizante à esquerda da rede para filtrar os links menos importantes e encontrar os clusters com relações mais próximas. O departamento de marketing da Ciclos da Adventure Works pode querer combinar clusters similares na determinação do melhor método de entrega da mala direta.

Voltar ao início

Guia Perfis de Cluster

A guia Perfis de Cluster fornece uma visão geral do modelo TM_Clustering. A guia Perfis de Cluster contém uma coluna para cada cluster no modelo. A primeira coluna listas os atributos associados a pelo menos um cluster. O resto do visualizador contém a distribuição dos estados de um atributo para cada cluster. A distribuição de uma variável discreta é mostrada como uma barra colorida com o número máximo de barras exibidas na lista Barras de histograma. São exibidos atributos contínuos com um gráfico de diamante que representa o desvio médio e padrão em cada cluster.

Para explorar o modelo na guia Perfis de Cluster

  1. Defina as barras Histograma como 5.

    Em nosso modelo, 5 é o número máximo de estados para qualquer variável.

  2. Se a Legenda de Mineração bloquear a exibição dos Perfis de atributo, tire-a do caminho.

  3. Selecione a coluna Bike Buyers High e arraste-a para a direita da coluna Population.

  4. Selecione a coluna Baixos Compradores de Bicicleta e arraste-a para a direita da coluna Altos Compradores de Bicicleta.

  5. Clique na coluna Altos Compradores de Bicicleta.

    A coluna Variáveis é classificada em ordem de importância para esse cluster. Navegue pela coluna e examine as características do cluster Altos Compradores de Bicicleta. Por exemplo, é mais provável que eles tenham um caminho curto para o trabalho.

  6. Clique duas vezes na célula Age da coluna Bike Buyers High.

    A Legenda de Mineração tem uma visualização mais detalhada e você pode ver o intervalo de idade desses clientes, além da idade média.

  7. Clique com o botão direito do mouse na coluna Bike Buyers Low e selecione Ocultar Coluna.

Voltar ao início

Guia Características do Cluster

Com a guia Características do Cluster, você pode examinar detalhadamente as características que compõem um cluster. Em vez de comparar as características de todos os clusters (como na guia Perfis de Cluster), você pode explorar um cluster por vez. Por exemplo, se você selecionar Bike Buyers High na lista Cluster, poderá ver as características dos clientes desse cluster. Embora a exibição seja diferente do visualizador Perfis de Cluster, as informações são as mesmas.

ObservaçãoObservação

A menos que você defina um valor inicial para holdoutseed, os resultados irão variar sempre que o modelo for processado. Para obter mais informações, consulte Elemento HoldoutSeed

Voltar ao início

Guia Distinção de Cluster

Com a guia Distinção de Cluster, você pode explorar as características que distinguem um cluster de outro. Depois de selecionar dois clusters, um na lista Cluster 1 e um na lista Cluster 2, o visualizador calculará as diferenças entre os clusters e exibirá uma lista de atributos que mais distinguem os clusters.

Para explorar o modelo na guia Distinção de Cluster

  1. Na caixa Cluster 1, selecione Bike Buyers High.

  2. Na caixa Cluster 2, selecione Bike Buyers Low.

  3. Clique em Variáveis para classificar alfabeticamente.

    Algumas das diferenças mais significativas entre os clientes nos clusters Baixos Compradores de Bicicleta e Altos Compradores de Bicicleta incluem idade, propriedade de carros, número de filhos e região.

Próxima tarefa na lição

Explorando o modelo Naive Bayes (Tutorial de mineração de dados básico)

Tarefa anterior da lição

Explorando o modelo de árvore de decisão (Tutorial de mineração de dados básico)

Consulte também

Referência

Guia Distinção de Cluster (Visualizador do Modelo de Mineração)

Guia Perfis de Cluster (Visualizador do Modelo de Mineração)

Guia Características do Cluster (Visualizador do Modelo de Mineração)

Guia Diagrama de Cluster (Visualizador do Modelo de Mineração)

Conceitos

Procurar um modelo usando o Visualizador de Cluster da Microsoft