Componente Limpar Dados Ausentes

Este artigo descreve o componente no designer do Azure Machine Learning.

Use este componente para remover, substituir ou inferir valores ausentes.

Os cientistas de dados geralmente verificam os dados em busca de valores ausentes e, em seguida, executam várias operações para corrigir os dados ou inserir novos valores. O objetivo dessas operações de limpeza é evitar problemas causados por dados ausentes que podem surgir durante o treinamento de um modelo.

Este componente dá suporte a vários tipos de operações para “limpeza” de valores ausentes, incluindo:

  • Substituição de valores ausentes por um espaço reservado, média ou outro valor
  • Remoção completa de linhas e colunas com valores ausentes
  • Inferência de valores com base em métodos estatísticos

O uso desse componente não altera o conjunto de fonte de origem. Em vez disso, ele cria um novo conjunto de novos conjuntos de espaço de trabalho que você pode usar no workflow subsequente. Você também pode salvar o conjunto de dados novo e limpo para reutilização.

Este componente também gera uma definição da transformação usada para limpar os valores ausentes. Você pode reutilizar essa transformação em outros conjuntos de dados que têm o mesmo esquema, usando o componente Aplicar Transformação.

Como usar dados ausentes limpos

Esse componente permite que você defina uma operação de limpeza. Você também pode salvar a operação de limpeza para que possa aplicá-la posteriormente aos novos dados. Confira as seções a seguir de como criar e salvar um processo de limpeza:

Importante

O método de limpeza que você usa para lidar com valores ausentes pode afetar drasticamente os resultados. Recomendamos que você experimente métodos diferentes. Considere a justificativa para uso de um método específico e a qualidade dos resultados.

Substituir valores ausentes

Cada vez que você aplicar o componente Limpar Dados Ausentes a um conjunto de dados, a mesma operação de limpeza será aplicada a todas as colunas que você selecionar. Portanto, se você precisar limpar colunas diferentes usando métodos diferentes, use instâncias separadas do componente.

  1. Adicione o componente Limpar Dados Ausentes ao seu pipeline e conecte-o com valores ausentes.

  2. Para as colunas a serem limpas, escolha as colunas que contêm os valores ausentes que você deseja alterar. Você pode escolher várias colunas, mas deve usar o mesmo método de substituição em todas as colunas selecionadas. Portanto, normalmente, você precisa limpar colunas de cadeia de caracteres e colunas numéricas separadamente.

    Por exemplo, para verificar se há valores ausentes em todas as colunas numéricas:

    1. Selecione o componente Limpar Dados Ausentes e clique em Editar coluna no painel direito do componente.

    2. Para Incluir, selecione Tipos de coluna na lista suspensa e, em seguida, selecione Numérico.

    Qualquer método de limpeza ou substituição que você escolher deve ser aplicável a todas as colunas na seleção. Se os dados em qualquer coluna forem incompatíveis com a operação especificada, o componente retornará um erro e interromperá o pipeline.

  3. Para Proporção mínima de valor ausente, especifique o número mínimo de valores ausentes necessários para a operação a ser executada.

    Use essa opção em combinação com a Proporção máxima de valor ausente para definir as condições sob as quais uma operação de limpeza é executada no conjunto de dados. Se houver excesso ou poucas linhas que não tenham valores, a operação não poderá ser executada.

    O número inserido representa a proporção de valores ausentes para todos os valores na coluna. Por padrão, a propriedade proporção mínima de valor ausente está definida como 0. Isso significa que os valores ausentes são limpos mesmo se houver apenas um valor ausente.

    Aviso

    Essa condição deve ser atendida por cada coluna para que a operação especificada seja aplicada. Por exemplo, suponha que você tenha selecionado três colunas e, em seguida, definiu a taxa mínima de valores ausentes como 0,2 (20%), mas apenas uma coluna tem, na verdade, 20% de valores ausentes. Nesse caso, a operação de limpeza se aplicaria somente à coluna com mais de 20% de valores ausentes. Portanto, as outras colunas ficarão inalteradas.

    Se você tiver alguma dúvida sobre se os valores ausentes foram alterados, selecione a opção Gerar coluna de indicador de valores ausentes. Uma coluna é anexada ao conjunto de dados para indicar se cada coluna atende aos critérios especificados para os intervalos mínimo e máximo.

  4. Para obter a taxa máxima de valores ausentes, especifique o número máximo de valores ausentes que podem estar presentes para a operação ser executada.

    Por exemplo, talvez você queira executar a substituição de valor ausente somente se 30% ou menos das linhas contiverem valores ausentes, mas deixar os valores como estão se mais de 30% das linhas tiverem valores ausentes.

    Você define o número como a proporção de valores ausentes para todos os valores na coluna. Por padrão, a Proporção máxima de valores ausentes é definida como 1. Isso significa que os valores ausentes serão limpos mesmo se 100% dos valores na coluna estiverem ausentes.

  5. Para o modo de limpeza, selecione uma das seguintes opções para substituir ou remover valores ausentes:

    • Valor de substituição personalizado: use essa opção para especificar um valor de espaço reservado (como 0 ou ND) que se aplica a todos os valores ausentes. O valor que você especifica como uma substituição deve ser compatível com o tipo de dados da coluna.

    • Substituir por média: calcula a média da coluna e usa a média como o valor de substituição para cada valor ausente na coluna.

      Aplica-se apenas a colunas que tenham tipos de dados Inteiro, Duplo ou Booleano.

    • Substituir por mediano: calcula o valor mediano da coluna e usa o valor mediano como substituição para qualquer valor ausente na coluna.

      Aplica-se apenas a colunas que tenham tipos de dados Inteiro ou Duplo.

    • Substituir por modo: calcula o modo da coluna e a usa como o valor de substituição para cada valor ausente na coluna.

      Aplica-se às colunas que têm tipos de dados Inteiro, Duplo, Booleano ou Categórico.

    • Remover linha inteira: remove completamente qualquer linha do conjunto de dados que tenha um ou mais valores ausentes. Isso será útil se o valor ausente puder ser considerado como ausente aleatoriamente.

    • Remover coluna inteira: remove completamente qualquer coluna do conjunto de dados que tenha um ou mais valores ausentes.

  6. A opção Valor de substituição estará disponível se você tiver selecionado a opção Valor personalizado de substituição. Digite um novo valor a ser usado como o valor de substituição para todos os valores ausentes na coluna.

    Observe que você pode usar essa opção somente em colunas que têm o número Inteiro, Duplo, Booliano ou Cadeia de caracteres.

  7. Gerar coluna de indicador de valor ausente: selecione esta opção se desejar gerar uma indicação de que os valores na coluna atendem aos critérios de limpeza de valor ausente. Essa opção é particularmente útil quando você está configurando uma nova operação de limpeza e deseja certificar-se de que ela funciona como projetado.

  8. Enviar o pipeline.

Resultados

O componente retorna duas saídas:

  • Conjunto de dados limpos: um conjunto de dados composto pelas colunas selecionadas, com valores ausentes manipulados conforme especificado, juntamente com uma coluna de indicador, se você tiver selecionado essa opção.

    As colunas não selecionadas para limpeza também são “transmitidas”.

  • Transformação de limpeza: uma transformação de dados usada para limpeza, que pode ser salva em seu espaço de trabalho e aplicada a novos dados posteriormente.

Aplicar uma operação de limpeza salva a novos dados

Se você precisar repetir as operações de limpeza com frequência, recomendamos que você salve sua receita para a limpeza de dados como uma transformação, para reutilizar com o mesmo conjunto de dados. Salvar uma transformação de limpeza é particularmente útil se você tiver que reimportar com frequência e limpar dados que têm o mesmo esquema.

  1. Adicione o componente Aplicar Transformação ao seu pipeline.

  2. Adicione o conjunto de dados que você deseja limpar e conecte o conjunto de dados à porta de entrada direita.

  3. Expanda o grupo Transformações no painel esquerdo do designer. Localize a transformação salva e arraste para o pipeline.

  4. Conecte a transformação salva à porta de entrada esquerda de Aplicar Transformação.

    Ao aplicar uma transformação salva, não é possível selecionar as colunas às quais a transformação é aplicada. Isso ocorre porque a transformação foi definida e se aplica automaticamente às colunas especificadas na operação original.

    No entanto, suponha que você tenha criado uma transformação em um subconjunto de colunas numéricas. Você pode aplicar essa transformação a um conjunto de uma série de tipos de coluna mistos sem gerar um erro, pois os valores ausentes são alterados somente nas colunas numéricas correspondentes.

  5. Envie o pipeline.

Próximas etapas

Confira o conjunto de componentes disponíveis no Azure Machine Learning.