Converter em conjunto de dados

Este artigo descreve como usar o componente Converter em Conjuntos de Dados no Azure Machine Learning Designer para converter todos os dados de um pipeline no formato interno do designer.

A conversão não é necessária na maioria dos casos. O Azure Machine Learning converte implicitamente os dados em seu formato de conjunto de dados nativo quando qualquer operação é executada nos dados.

Recomendamos salvar os dados no formato do conjunto de dados se você executou algum tipo de normalização ou limpeza em um conjunto de dados e deseja garantir que as alterações sejam usadas em outros pipelines.

Observação

Converter em Conjuntos de Dados altera apenas o formato dos dados. Ele não salva uma nova cópia dos dados no workspace. Para salvar o conjunto de dados, clique duas vezes na porta de saída, selecione Salvar como conjunto de dados e insira um novo nome.

Como usar Converter em Conjuntos de Dados

Recomendamos que você use o componente Editar Metadados para preparar o conjuntos de dados antes de usar Converter em Conjuntos de Dados. Você pode adicionar ou alterar nomes de coluna, ajustar tipos de dados e fazer outras alterações conforme necessário.

  1. Adicione o componente Converter em Conjunto de Dados ao pipeline. Encontre esse componente na categoria Transformação de Dados no designer.

  2. Conecte-o a qualquer componente que produza um conjunto de dados.

    Desde que os dados são tabular,você pode convertê-los em um conjuntos de dados. Isso inclui dados carregados por meio de Importar Dados, dados criados por meio de Inserir Dados Manualmente ou conjuntos de dados transformados por meio da Transformação Aplicar.

  3. Na lista suspensa Ação, indique se você deseja fazer qualquer limpeza nos dados antes de salvar o conjuntos de dados:

    • Nenhum:use os dados como estão.

    • SetMissingValue: de definir um valor específico para um valor ausente no conjunto de dados. O espaço reservado padrão é o caractere de ponto de interrogação (?), mas você pode usar a opção Valor ausente personalizado para inserir um valor diferente. Por exemplo, se você inserir Taxi for Custom missing value, todas as instâncias de Taxi no conjuntos de dados serão alteradas para o valor ausente.

    • ReplaceValues: Use essa opção para especificar um único valor exato a ser substituído por qualquer outro valor exato. Você pode substituir valores ausentes ou personalizados definindo o método replace:

      • Ausente: escolha esta opção para substituir os valores ausentes no conjunto de dados de entrada. Para novo valor, insira o valor com o qual substituir os valores ausentes.
      • Personalizado: escolha esta opção para substituir os valores personalizados no conjunto de dados de entrada. Para valor personalizado, insira o valor que você deseja localizar. Por exemplo, se seus dados contiverem a cadeia de caracteres obs usada como um espaço reservado para valores ausentes, insira obs. Para novo valor, insira o novo valor com o qual substituir a cadeia de caracteres original.

    Observe que a operação ReplaceValues se aplica somente a correspondências exatas. Por exemplo, essas cadeias de caracteres não seriam afetadas: obs., obsolete.

  4. Enviar o pipeline.

Resultados

  • Para salvar o conjunto de resultados resultante com um novo nome, selecione no ícone registrar conjunto de registros na guia saídas no painel direito do componente.

Observações técnicas

  • Qualquer componente que recebe um conjunto de dados como entrada também pode receber dados no arquivo CSV ou no arquivo TSV. Antes da execução dos códigos de componente, as entradas são pré-processadas. O pré-processamento é equivalente a executar o componente Converter em Conjunto de Dados na entrada.

  • Você não pode converter do formato SVMLight em um conjunto de dados.

  • Ao especificar uma operação Substituir personalizada, a operação de pesquisa e substituição se aplica a valores completos; correspondências parciais não são permitidas. Correspondências parciais não são permitidas. Por exemplo, você pode substituir um 3 por -1 ou por 33, mas não pode substituir um 3 em um número de dois dígitos, como 35.

  • Para operações de substituição personalizadas, a substituição falhará de modo silencioso se você usar como substituição de qualquer caractere que não esteja em conformidade com o tipo de dados atual da coluna.

Próximas etapas

Confira o conjunto de componentes disponíveis no Azure Machine Learning.