Snabbstart: Skapa en bildklassificeringsmodell med Custom Vision-portalen
Den här snabbstarten förklarar hur du använder Custom Vision-webbportalen för att skapa en bildklassificeringsmodell. När du har skapat en modell kan du testa den med nya avbildningar och så småningom integrera den i din egen app för bildigenkänning.
Förutsättningar
- En Azure-prenumeration. Du kan skapa ett kostnadsfritt konto.
- En uppsättning bilder för att träna klassificeringsmodellen. Du kan använda uppsättningen med exempelbilder på GitHub. Eller så kan du välja egna bilder med hjälp av följande tips.
- En webbläsare som stöds.
Skapa Custom Vision-resurser
Om du vill använda Custom Vision Service måste du skapa resurser för Custom Vision Training and Prediction i Azure. Om du vill göra det i Azure Portal fyller du i dialogrutan på sidan Skapa custom vision för att skapa både en tränings- och förutsägelseresurs.
Skapa ett nytt projekt
Gå till Custom Vision-webbsidan och logga sedan in med samma konto som du använde för att logga in på Azure Portal.
Om du vill skapa ditt första projekt väljer du Nytt projekt. Dialogrutan Skapa nytt projekt visas.
Ange ett namn och en beskrivning för projektet. Välj sedan din Custom Vision Training-resurs. Om ditt inloggade konto är associerat med ett Azure-konto visar listrutan Resurs alla dina kompatibla Azure-resurser.
Kommentar
Om det inte finns någon tillgänglig resurs kontrollerar du att du har loggat in på customvision.ai med samma konto som du använde för att logga in på Azure Portal. Bekräfta också att du har valt samma katalog på Custom Vision-webbplatsen som katalogen i Azure Portal där dina Custom Vision-resurser finns. På båda webbplatserna kan du välja din katalog i listrutans kontomeny i det övre högra hörnet på skärmen.
Välj Klassificering under Projekttyper. Under Klassificeringstyper väljer du sedan antingen Multilabel eller Multiclass, beroende på ditt användningsfall. Multilabel-klassificering tillämpar valfritt antal taggar på en bild (noll eller mer), medan klassificering i flera klasser sorterar bilder i enskilda kategorier (varje bild du skickar sorteras i den mest sannolika taggen). Du kan ändra klassificeringstypen senare, om du vill.
Välj sedan en av de tillgängliga domänerna. Varje domän optimerar modellen för specifika typer av bilder enligt beskrivningen i följande tabell. Du kan ändra domänen senare om du vill.
Domän Syfte Allmän Optimerad för ett brett spektrum av bildklassificeringsuppgifter. Om ingen av de andra domänerna är lämpliga eller om du är osäker på vilken domän du ska välja väljer du den generiska domänen. Mat Optimerad för fotografier av rätter som du skulle se dem på en restaurangmeny. Om du vill klassificera fotografier av enskilda frukter eller grönsaker använder du domänen Mat. Landmärken Optimerad för igenkännliga landmärken, både naturliga och artificiella. Den här domänen fungerar bäst när landmärket är tydligt synligt i fotografiet. Den här domänen fungerar även om landmärket blockeras något av personer framför den. Retail Optimerad för bilder som finns i en shoppingkatalog eller shoppingwebbplats. Om du vill klassificera hög precision mellan klänningar, byxor och skjortor använder du den här domänen. Kompakta domäner Optimerad för begränsningarna för realtidsklassificering på mobila enheter. Modeller som genereras av kompakta domäner kan exporteras för att köras lokalt. Välj slutligen Skapa projekt.
Välj träningsbilder
Som minst rekommenderar vi att du använder minst 30 bilder per tagg i den första träningsuppsättningen. Du vill också samla in några extra bilder för att testa din modell när den har tränats.
För att träna din modell effektivt använder du bilder med visuell variation. Välj bilder som varierar beroende på:
- kameravinkel
- belysning
- bakgrund
- visuellt format
- enskilda/grupperade ämnen
- storlek
- type
Se dessutom till att alla träningsbilder uppfyller följande kriterier:
- .jpg, .png, .bmp eller .gif format
- inte större än 6 MB i storlek (4 MB för förutsägelsebilder)
- inte mindre än 256 bildpunkter på den kortaste kanten. alla bilder som är kortare än detta skalas automatiskt upp av Custom Vision Service
Ladda upp och tagga bilder
Du kan ladda upp och tagga bilder manuellt för att träna klassificeraren.
Om du vill lägga till bilder väljer du Lägg till bilder och sedan Bläddra bland lokala filer. Välj Öppna om du vill flytta till taggning. Taggvalet tillämpas på hela gruppen med bilder som du laddar upp, så det är enklare att ladda upp bilder i separata grupper enligt deras tillämpade taggar. Du kan också ändra taggarna för enskilda bilder när de har laddats upp.
Om du vill skapa en tagg anger du text i fältet Mina taggar och trycker på Retur. Om taggen redan finns visas den i en nedrullningsbara meny. I ett multilabel-projekt kan du lägga till fler än en tagg i dina bilder, men i ett projekt med flera grupper kan du bara lägga till en. Om du vill slutföra uppladdningen av bilderna använder du knappen Ladda upp [nummer]-filer .
Välj Klar när bilderna har laddats upp.
Om du vill ladda upp en annan uppsättning bilder går du tillbaka till toppen av det här avsnittet och upprepar stegen.
Träna klassificeraren
Om du vill träna klassificeraren väljer du knappen Träna . Klassificeraren använder alla aktuella bilder för att skapa en modell som identifierar de visuella egenskaperna för varje tagg. Den här processen kan ta flera minuter.
Träningsprocessen bör bara ta några minuter. Under den här tiden visas information om träningsprocessen på fliken Prestanda .
Utvärdera klassificeraren
När träningen är klar beräknas och visas modellens prestanda. Custom Vision Service använder de bilder som du skickade för träning för att beräkna precision och återkallande. Precision och träffsäkerhet är två olika mått på effektiviteten hos en klassificerare:
- Precision anger fraktionen av identifierade klassificeringar som var korrekta. Om modellen till exempel identifierade 100 bilder som hundar och 99 av dem faktiskt var av hundar, skulle precisionen vara 99 %.
- Recall anger den del av faktiska klassificeringar som har identifierats korrekt. Om det till exempel fanns 100 bilder av äpplen och modellen identifierade 80 som äpplen skulle återkallelsen vara 80 %.
Sannolikhetströskel
Observera skjutreglaget Sannolikhetströskel i den vänstra rutan på fliken Prestanda. Detta är den förtroendenivå som en förutsägelse måste ha för att anses vara korrekt (i syfte att beräkna precision och återkallande).
När du tolkar förutsägelseanrop med ett tröskelvärde med hög sannolikhet tenderar de att returnera resultat med hög precision på bekostnad av återkallelse – de identifierade klassificeringarna är korrekta, men många förblir oupptäckta. Ett tröskelvärde med låg sannolikhet gör motsatsen – de flesta av de faktiska klassificeringarna identifieras, men det finns fler falska positiva identifieringar inom den uppsättningen. Med detta i åtanke bör du ange sannolikhetströskeln enligt projektets specifika behov. När du senare får förutsägelseresultat på klientsidan bör du använda samma tröskelvärde för sannolikhet som du använde här.
Hantera utbildnings-iterationer
Varje gång du tränar klassificeraren skapar du en ny iteration med uppdaterade prestandamått. Du kan visa alla dina iterationer i den vänstra rutan på fliken Prestanda . Du hittar också knappen Ta bort , som du kan använda för att ta bort en iteration om den är föråldrad. När du tar bort en iteration tar du bort alla bilder som är unikt associerade med den.
Mer information om hur du kommer åt dina tränade modeller programmatiskt finns i Anropa förutsägelse-API:et.
Gå vidare
I den här snabbstarten har du lärt dig hur du skapar och tränar en bildklassificeringsmodell med hjälp av Custom Vision-webbportalen. Härnäst får du mer information om den iterativa processen för att förbättra din modell.