Resumir dados
Este artigo descreve o componente do Azure Machine Learning Designer.
Use o componente Resumir Dados para criar um conjunto de medidas estatísticas padrão que descrevem cada coluna na tabela de entrada.
As estatísticas de resumo são úteis para entender as características de todo o conjunto de dados. Por exemplo, talvez seja necessário saber:
- Quantos valores ausentes existem em cada coluna?
- Quantos valores exclusivos existem na coluna de recursos?
- Qual é a média e o desvio padrão de cada coluna?
O componente calcula as pontuações importantes de cada coluna e retorna uma linha de estatísticas de resumo para cada variável (coluna de dados) fornecida como entrada.
Como configurar dados de resumo
Adicione o componente Resumir Dados ao pipeline. Você pode encontrar esse componente na categoria Funções Estatísticas no designer.
Conecte o conjunto de dados para gerar o relatório.
Se você quiser fazer o relatório de apenas algumas colunas, use o componente Selecionar Colunas no Conjunto de Dados para projetar um subconjunto de colunas para trabalhar.
Nenhum parâmetro adicional é necessário. Por padrão, o componente analisa todas as colunas fornecidas como entrada e, dependendo do tipo de valores nas colunas, gera um conjunto de estatísticas relevante, como descrito na seção Resultados.
Enviar o pipeline.
Resultados
O relatório do componente pode incluir as estatísticas a seguir.
Nome da coluna | Descrição |
---|---|
Recurso | Nome da coluna |
Count | Contagem de todas as linhas |
Contagem de valores exclusivos | Número de valores exclusivos na coluna |
Contagem de valores ausentes | Número de valores exclusivos na coluna |
Min | Valor mais baixo na coluna |
Max | Valor mais alto na coluna |
Mean | Média de todos os valores de coluna |
Desvio médio | Desvio médio dos valores da coluna |
Primeiro quartil | Valor no primeiro quartil |
Median | Mediana do valor da coluna |
Terceiro quartil | Valor no terceiro quartil |
Modo | Modo de valores de coluna |
Intervalo | Inteiro que representa o número de valores entre os valores máximo e mínimo |
Variância do exemplo | Variância da coluna. Confira a observação |
Desvio padrão do exemplo | Desvio padrão da coluna. Confira a observação |
Assimetria do exemplo | Assimetria da coluna. Confira a observação |
Curtose do exemplo | Curtose da coluna. Confira a observação |
P0.5 | Percentual de 0,5% |
P1 | Percentil 1% |
P5 | Percentil 5% |
P95 | Percentil 95% |
P99,5 | Percentil 99,5% |
Observações técnicas
Para colunas não numéricas, apenas os valores para Contagem, Contagem de valor exclusivo e Contagem de valor ausente são calculados. As outras estatísticas retornarão um valor nulo.
As colunas que contêm valores boolianos são processadas com estas regras:
Ao calcular Mín, um AND lógico é aplicado.
Ao calcular Máx, um OR lógico é aplicado
Ao calcular Intervalo, o componente primeiro verifica se o número de valores exclusivos na coluna é igual a 2.
Ao calcular qualquer estatística que requeira cálculos de ponto flutuante, os valores True são tratados como 1,0 e os valores False são tratados como 0,0.
Próximas etapas
Confira o conjunto de componentes disponíveis no Azure Machine Learning.