Resumir dados

Este artigo descreve o componente do Azure Machine Learning Designer.

Use o componente Resumir Dados para criar um conjunto de medidas estatísticas padrão que descrevem cada coluna na tabela de entrada.

As estatísticas de resumo são úteis para entender as características de todo o conjunto de dados. Por exemplo, talvez seja necessário saber:

  • Quantos valores ausentes existem em cada coluna?
  • Quantos valores exclusivos existem na coluna de recursos?
  • Qual é a média e o desvio padrão de cada coluna?

O componente calcula as pontuações importantes de cada coluna e retorna uma linha de estatísticas de resumo para cada variável (coluna de dados) fornecida como entrada.

Como configurar dados de resumo

  1. Adicione o componente Resumir Dados ao pipeline. Você pode encontrar esse componente na categoria Funções Estatísticas no designer.

  2. Conecte o conjunto de dados para gerar o relatório.

    Se você quiser fazer o relatório de apenas algumas colunas, use o componente Selecionar Colunas no Conjunto de Dados para projetar um subconjunto de colunas para trabalhar.

  3. Nenhum parâmetro adicional é necessário. Por padrão, o componente analisa todas as colunas fornecidas como entrada e, dependendo do tipo de valores nas colunas, gera um conjunto de estatísticas relevante, como descrito na seção Resultados.

  4. Enviar o pipeline.

Resultados

O relatório do componente pode incluir as estatísticas a seguir.

Nome da coluna Descrição
Recurso Nome da coluna
Count Contagem de todas as linhas
Contagem de valores exclusivos Número de valores exclusivos na coluna
Contagem de valores ausentes Número de valores exclusivos na coluna
Min Valor mais baixo na coluna
Max Valor mais alto na coluna
Mean Média de todos os valores de coluna
Desvio médio Desvio médio dos valores da coluna
Primeiro quartil Valor no primeiro quartil
Median Mediana do valor da coluna
Terceiro quartil Valor no terceiro quartil
Modo Modo de valores de coluna
Intervalo Inteiro que representa o número de valores entre os valores máximo e mínimo
Variância do exemplo Variância da coluna. Confira a observação
Desvio padrão do exemplo Desvio padrão da coluna. Confira a observação
Assimetria do exemplo Assimetria da coluna. Confira a observação
Curtose do exemplo Curtose da coluna. Confira a observação
P0.5 Percentual de 0,5%
P1 Percentil 1%
P5 Percentil 5%
P95 Percentil 95%
P99,5 Percentil 99,5%

Observações técnicas

  • Para colunas não numéricas, apenas os valores para Contagem, Contagem de valor exclusivo e Contagem de valor ausente são calculados. As outras estatísticas retornarão um valor nulo.

  • As colunas que contêm valores boolianos são processadas com estas regras:

    • Ao calcular Mín, um AND lógico é aplicado.

    • Ao calcular Máx, um OR lógico é aplicado

    • Ao calcular Intervalo, o componente primeiro verifica se o número de valores exclusivos na coluna é igual a 2.

    • Ao calcular qualquer estatística que requeira cálculos de ponto flutuante, os valores True são tratados como 1,0 e os valores False são tratados como 0,0.

Próximas etapas

Confira o conjunto de componentes disponíveis no Azure Machine Learning.