Componente Inserir Dados Manualmente

Este artigo descreve o componente no Azure Machine Learning Designer.

Use o componente Inserir Dados Manualmente para criar um pequeno conjunto de dados digitando valores. O conjunto de dados pode ter várias colunas.

Esse componente pode ser útil em cenários como estes:

  • Gerar um pequeno conjunto de valores para teste.
  • Criar uma lista pré-selecionada de etiquetas.
  • Digitar uma lista de nomes de coluna para inserir em um conjunto de dados.

Criar um conjunto de dados

  1. Adicione o componente Inserir Dados Manualmente ao seu pipeline. Você pode encontrar esse componente na categoria Entrada e Saída de Dados do Azure Machine Learning.

  2. Em Formato dos dados, escolha uma das opções a seguir. Essas opções determinam como analisar os dados que você informa. Os requisitos para cada formato variam muito. Portanto, não deixe de ler os tópicos relacionados.

    • ARFF: formato de arquivo com relação de atributo usado pelo Weka.
    • CSV: formato de valores separados por vírgulas. Para mais informações, confira Converter em CSV.
    • SVMLight: formato usado pelo Vowpal Wabbit e outras estruturas de machine learning.
    • TSV: formato de valores separados por tabulação.

    Se você escolher um formato e não informar dados que atendam às especificações relacionadas a ele, ocorrerá um erro de runtime.

  3. Clique dentro da caixa de texto Dados para começar a inserir dados. Os seguintes formatos exigem atenção especial:

    • CSV: para criar várias colunas, cole o texto separado por vírgulas ou digite várias colunas usando vírgulas entre os campos.

      Se você escolher a opção HasHeader, poderá usar a primeira linha de valores como o título de coluna.

      Se você desmarcar essa opção, serão usados os nomes de coluna Col1, Col2 e assim por diante. Você pode adicionar ou alterar os nomes das colunas posteriormente, usando Editar metadados.

    • TSV: para criar várias colunas, cole o texto separado por tabulação ou digite várias colunas usando tabulações entre os campos.

      Se você escolher a opção HasHeader, poderá usar a primeira linha de valores como o título de coluna.

      Se você desmarcar essa opção, serão usados os nomes de coluna Col1, Col2 e assim por diante. Você pode adicionar ou alterar os nomes das colunas posteriormente, usando Editar metadados.

    • ARFF: cole um arquivo de formato ARFF existente. Se você estiver digitando os valores diretamente, não se esqueça de adicionar o cabeçalho opcional e os campos de atributo necessários no início dos dados.

      Por exemplo, é possível adicionar as linhas de cabeçalho e de atributo a seguir a uma lista simples. O título de coluna seria SampleText. Observe que não há suporte ao tipo Cadeia de caracteres.

      % Title: SampleText.ARFF  
      % Source: Enter Data component  
      @ATTRIBUTE SampleText NUMERIC  
      @DATA  
      \<type first data row here>  
      
    • SVMLight: digite ou cole valores usando o formato SVMLight.

      Por exemplo, a seguinte amostra representa as primeiras linhas do conjunto de dados de doação de sangue, no formato SVMLight:

      # features are [Recency], [Frequency], [Monetary], [Time]  
      1 1:2 2:50 3:12500 4:98   
      1 1:0 2:13 3:3250 4:28   
      

      Quando você executa o componente Inserir Dados Manualmente, essas linhas são convertidas em um conjunto de dados de colunas e valores de índice, como os seguintes:

      Col1 Col2 Col3 Col4 Rótulos
      0,00016 0,004 0,999961 0,00784 1
      0 0,004 0,999955 0,008615 1
  4. Depois de cada linha, pressione a tecla Enter para iniciar uma nova linha.

    Se você pressionar Enter várias vezes para adicionar várias linhas à direita em branco, as linhas em branco serão removidas ou cortadas.

    Se você criar linhas com valores ausentes, poderá filtrá-las posteriormente.

  5. Conecte a porta de saída a outros componentes e execute o pipeline.

    Para exibir o conjunto de dados, clique com o botão direito do mouse no componente e escolha Visualizar.

Próximas etapas

Confira o conjunto de componentes disponíveis no Azure Machine Learning.