Ange komponenten Data manuellt

I den här artikeln beskrivs en komponent i Azure Mašinsko učenje designer.

Använd komponenten Ange data manuellt för att skapa en liten datamängd genom att skriva värden. Datamängden kan ha flera kolumner.

Den här komponenten kan vara användbar i scenarier som:

  • Genererar en liten uppsättning värden för testning.
  • Skapa en kort lista med etiketter.
  • Skriva en lista med kolumnnamn som ska infogas i en datauppsättning.

Skapa en datamängd

  1. Lägg till komponenten Ange data manuellt i pipelinen. Du hittar den här komponenten i kategorin Dataindata och utdata i Azure Mašinsko učenje.

  2. För DataFormat väljer du något av följande alternativ. De här alternativen avgör hur de data som du anger ska parsas. Kraven för varje format skiljer sig mycket åt, så se till att läsa relaterade ämnen.

    • ARFF: Filformat för attribut-relation som används av Weka.
    • CSV: Format för kommaavgränsade värden. Mer information finns i Konvertera till CSV.
    • SVMLight: Format som används av Vowpal Wabbit och andra maskininlärningsramverk.
    • TSV: Tabellavgränsat värdeformat.

    Om du väljer ett format och inte anger data som uppfyller formatspecifikationerna uppstår ett körningsfel.

  3. Klicka i textrutan Data för att börja ange data. Följande format kräver särskild uppmärksamhet:

    • CSV: Om du vill skapa flera kolumner klistrar du in kommaavgränsad text eller skriver flera kolumner med kommatecken mellan fält.

      Om du väljer alternativet HasHeader kan du använda den första raden med värden som kolumnrubrik.

      Om du avmarkerar det här alternativet används kolumnnamnen (Col1, Col2 och så vidare). Du kan lägga till eller ändra kolumnnamn senare med hjälp av Redigera metadata.

    • TSV: Om du vill skapa flera kolumner klistrar du in flikavgränsad text eller skriver flera kolumner med hjälp av flikar mellan fält.

      Om du väljer alternativet HasHeader kan du använda den första raden med värden som kolumnrubrik.

      Om du avmarkerar det här alternativet används kolumnnamnen (Col1, Col2 och så vidare). Du kan lägga till eller ändra kolumnnamn senare med hjälp av Redigera metadata.

    • ARFF: Klistra in i en befintlig ARFF-formatfil. Om du skriver värden direkt måste du lägga till den valfria rubriken och obligatoriska attributfält i början av data.

      Följande rubrik- och attributrader kan till exempel läggas till i en enkel lista. Kolumnrubriken skulle vara SampleText. Observera att strängtypen inte stöds.

      % Title: SampleText.ARFF  
      % Source: Enter Data component  
      @ATTRIBUTE SampleText NUMERIC  
      @DATA  
      \<type first data row here>  
      
    • SVMLight: Skriv eller klistra in värden med hjälp av SVMLight-formatet.

      Följande exempel representerar till exempel de första raderna i datauppsättningen Blodgivning i SVMLight-format:

      # features are [Recency], [Frequency], [Monetary], [Time]  
      1 1:2 2:50 3:12500 4:98   
      1 1:0 2:13 3:3250 4:28   
      

      När du kör komponenten Ange data manuellt konverteras dessa rader till en datamängd med kolumner och indexvärden enligt följande:

      Col1 Col2 Col3 Col4 Etiketter
      0.00016 0,004 0.999961 0.00784 1
      0 0,004 0.999955 0.008615 1
  4. Välj returnyckeln efter varje rad för att starta en ny rad.

    Om du väljer Ange flera gånger för att lägga till flera tomma avslutande rader tas de tomma raderna bort eller trimmas.

    Om du skapar rader med saknade värden kan du alltid filtrera bort dem senare.

  5. Anslut utdataporten till andra komponenter och kör pipelinen.

    Om du vill visa datauppsättningen högerklickar du på komponenten och väljer Visualisera.

Nästa steg

Se den uppsättning komponenter som är tillgängliga för Azure Mašinsko učenje.