Redigera metadatakomponent

I den här artikeln beskrivs en komponent som ingår i Azure Mašinsko učenje designer.

Använd komponenten Redigera metadata för att ändra metadata som är associerade med kolumner i en datauppsättning. Datamängdens värde och datatyp ändras efter användning av komponenten Redigera metadata.

Vanliga metadataändringar kan vara:

  • Behandla booleska eller numeriska kolumner som kategoriska värden.

  • Anger vilken kolumn som innehåller klassetiketten eller innehåller de värden som du vill kategorisera eller förutsäga.

  • Markera kolumner som funktioner.

  • Ändra datum-/tidsvärden till numeriska värden eller vice versa.

  • Byter namn på kolumner.

Använd Redigera metadata när du behöver ändra definitionen av en kolumn, vanligtvis för att uppfylla kraven för en underordnad komponent. Vissa komponenter fungerar till exempel bara med specifika datatyper eller kräver flaggor på kolumnerna, till exempel IsFeature eller IsCategorical.

När du har slutfört den nödvändiga åtgärden kan du återställa metadata till dess ursprungliga tillstånd.

Konfigurera redigera metadata

  1. I Azure Mašinsko učenje designer lägger du till komponenten Redigera metadata i pipelinen och ansluter den datauppsättning som du vill uppdatera. Du hittar komponenten i kategorin Datatransformering .

  2. Klicka på Redigera kolumn i den högra panelen i komponenten och välj den kolumn eller uppsättning kolumner som ska arbetas med. Du kan välja kolumner individuellt efter namn eller index, eller så kan du välja en grupp med kolumner efter typ.

  3. Välj alternativet Datatyp om du behöver tilldela en annan datatyp till de valda kolumnerna. Du kan behöva ändra datatypen för vissa åtgärder. Om källdatauppsättningen till exempel har tal som hanteras som text måste du ändra dem till en numerisk datatyp innan du använder matematiska åtgärder.

    • De datatyper som stöds är String, Integer, Double, Boolean och DateTime.

    • Om du väljer flera kolumner måste du tillämpa metadataändringarna på alla markerade kolumner. Anta till exempel att du väljer två eller tre numeriska kolumner. Du kan ändra alla till en strängdatatyp och byta namn på dem i en åtgärd. Du kan dock inte ändra en kolumn till en strängdatatyp och en annan kolumn från en flyttal till ett heltal.

    • Om du inte anger någon ny datatyp ändras kolumnmetadata.

    • Kolumntypen och värdena ändras när du har slutfört åtgärden Redigera metadata. Du kan återställa den ursprungliga datatypen när som helst genom att använda Redigera metadata för att återställa kolumndatatypen.

    Kommentar

    DateTime-formatet följer pythons inbyggda datetime-format.
    Om du ändrar någon typ av tal till DateTime-typen lämnar du fältet DateTime Format tomt. För närvarande går det inte att ange måldataformatet.

  4. Välj alternativet Kategori för att ange att värdena i de valda kolumnerna ska behandlas som kategorier.

    Du kan till exempel ha en kolumn som innehåller talen 0, 1 och 2, men vet att siffrorna faktiskt betyder "Rökare", "Icke-rökare" och "Okänd". I så fall kan du genom att flagga kolumnen som kategorisk se till att värdena endast används för att gruppera data och inte i numeriska beräkningar.

  5. Använd alternativet Fält om du vill ändra hur Azure Mašinsko učenje använder data i en modell.

    • Funktion: Använd det här alternativet för att flagga en kolumn som en funktion i komponenter som endast fungerar på funktionskolumner. Som standard behandlas alla kolumner ursprungligen som funktioner.

    • Etikett: Använd det här alternativet för att markera etiketten, som även kallas för förutsägbart attribut eller målvariabel. Många komponenter kräver att exakt en etikettkolumn finns i datauppsättningen.

      I många fall kan Azure Mašinsko učenje dra slutsatsen att en kolumn innehåller en klassetikett. Genom att ange dessa metadata kan du se till att kolumnen identifieras korrekt. Om du anger det här alternativet ändras inte datavärden. Det ändrar bara hur vissa maskininlärningsalgoritmer hanterar data.

    Dricks

    Har du data som inte passar in i de här kategorierna? Datamängden kan till exempel innehålla värden som unika identifierare som inte är användbara som variabler. Ibland kan sådana ID:er orsaka problem när de används i en modell.

    Som tur är behåller Azure Mašinsko učenje alla dina data, så att du inte behöver ta bort sådana kolumner från datauppsättningen. När du behöver utföra åtgärder på en särskild uppsättning kolumner tar du bara bort alla andra kolumner tillfälligt med hjälp av komponenten Välj kolumner i datauppsättning . Senare kan du sammanfoga kolumnerna tillbaka till datauppsättningen med hjälp av komponenten Lägg till kolumner .

  6. Använd följande alternativ för att rensa tidigare val och återställa metadata till standardvärdena.

    • Rensa funktion: Använd det här alternativet för att ta bort funktionsflaggan.

      Alla kolumner behandlas inledningsvis som funktioner. För komponenter som utför matematiska åtgärder kan du behöva använda det här alternativet för att förhindra att numeriska kolumner behandlas som variabler.

    • Rensa etikett: Använd det här alternativet om du vill ta bort etikettmetadata från den angivna kolumnen.

    • Rensa poäng: Använd det här alternativet för att ta bort poängmetadata från den angivna kolumnen.

      Du kan för närvarande inte uttryckligen markera en kolumn som en poäng i Azure Mašinsko učenje. Vissa åtgärder resulterar dock i att en kolumn flaggas som en poäng internt. Dessutom kan en anpassad R-komponent mata ut poängvärden.

  7. För Nya kolumnnamn anger du det nya namnet på den valda kolumnen eller kolumnerna.

    • Kolumnnamn kan bara använda tecken som stöds av UTF-8-kodning. Tomma strängar, null-värden eller namn som helt består av blanksteg tillåts inte.

    • Om du vill byta namn på flera kolumner anger du namnen som en kommaavgränsad lista i ordning efter kolumnindexen.

    • Alla markerade kolumner måste byta namn. Du kan inte utelämna eller hoppa över kolumner.

  8. Skicka pipelinen.

Nästa steg

Se den uppsättning komponenter som är tillgängliga för Azure Mašinsko učenje.