Poisson-regression

I den här artikeln beskrivs en komponent i Azure Mašinsko učenje designer.

Använd den här komponenten för att skapa en Poisson-regressionsmodell i en pipeline. Poisson-regression är avsedd för att förutsäga numeriska värden, vanligtvis antal. Därför bör du använda den här komponenten för att skapa din regressionsmodell endast om de värden som du försöker förutsäga passar följande villkor:

  • Svarsvariabeln har en Poisson-fördelning.

  • Antalet får inte vara negativt. Metoden misslyckas direkt om du försöker använda den med negativa etiketter.

  • En Poisson-distribution är en diskret distribution. Därför är det inte meningsfullt att använda den här metoden med icke-heltal.

Dricks

Om målet inte är ett antal är Poisson-regression förmodligen inte en lämplig metod. Prova andra regressionskomponenter i designern.

När du har konfigurerat regressionsmetoden måste du träna modellen med hjälp av en datauppsättning som innehåller exempel på det värde som du vill förutsäga. Den tränade modellen kan sedan användas för att göra förutsägelser.

Mer om Poisson-regression

Poisson-regression är en särskild typ av regressionsanalys som vanligtvis används för att modellera antal. Poisson-regression är till exempel användbart i följande scenarier:

  • Modellera antalet förkylningar som är associerade med flygplansflygningar

  • Beräkna antalet nödtjänstsamtal under en händelse

  • Beräkna antalet kundförfrågningar efter en kampanj

  • Skapa beredskapstabeller

Eftersom svarsvariabeln har en Poisson-fördelning gör modellen olika antaganden om data och dess sannolikhetsfördelning än, låt oss säga, regression med minst kvadrater. Poisson-modeller bör därför tolkas annorlunda än andra regressionsmodeller.

Så här konfigurerar du Poisson-regression

  1. Lägg till Poisson Regression-komponenten i pipelinen i designern. Du hittar den här komponenten under Mašinsko učenje-algoritmer i kategorin Regression.

  2. Lägg till en datauppsättning som innehåller träningsdata av rätt typ.

    Vi rekommenderar att du använder Normalisera data för att normalisera indatamängden innan du använder den för att träna regressorn.

  3. I den högra rutan i Poisson Regression-komponenten anger du hur du vill att modellen ska tränas genom att ange alternativet Skapa träningsläge .

    • Enskild parameter: Om du vet hur du vill konfigurera modellen anger du en specifik uppsättning värden som argument.

    • Parameterintervall: Om du inte är säker på de bästa parametrarna gör du en parameterrensning med hjälp av komponenten Tune Model Hyperparameters . Utbildaren itererar över flera värden som du anger för att hitta den optimala konfigurationen.

  4. Optimeringstolerans: Ange ett värde som definierar toleransintervallet under optimeringen. Ju lägre värde, desto långsammare och mer exakt passar.

  5. L1-regulariseringsvikt och L2-regulariseringsvikt: Typvärden som ska användas för L1- och L2-regularisering. Regularisering lägger till begränsningar i algoritmen när det gäller aspekter av modellen som är oberoende av träningsdata. Regularisering används ofta för att undvika överanpassning.

    • L1-regularisering är användbart om målet är att ha en modell som är så gles som möjligt.

      L1-regularisering görs genom att subtrahera vikt L1 för viktvektorn från det förlustuttryck som eleven försöker minimera. L1-normen är en bra uppskattning av L0-normen, vilket är antalet koordinater som inte är noll.

    • L2-regularisering förhindrar att en enda koordinat i viktvektorn växer för mycket i storlek. L2-regularisering är användbart om målet är att ha en modell med små övergripande vikter.

    I den här komponenten kan du använda en kombination av L1- och L2-regulariseringar. Genom att kombinera L1- och L2-regularisering kan du ålägga en straffavgift för parametervärdenas storlek. Eleven försöker minimera straffet, i en kompromiss med att minimera förlusten.

    En bra diskussion om L1- och L2-regularisering finns i L1- och L2-regularisering för Mašinsko učenje.

  6. Minnesstorlek för L-BFGS: Ange hur mycket minne som ska reserveras för modellanpassning och optimering.

    L-BFGS är en specifik metod för optimering, baserat på algoritmen Broyden–Fletcher–Goldfarb–Shanno (BFGS). Metoden använder en begränsad mängd minne (L) för att beräkna nästa stegriktning.

    Genom att ändra den här parametern kan du påverka antalet tidigare positioner och toningar som lagras för beräkningen av nästa steg.

  7. Anslut träningsdatauppsättningen och den otränade modellen till någon av träningskomponenterna:

    • Om du anger Skapa träningsläge till Enskild parameter använder du komponenten Träna modell .

    • Om du ställer in Läget Skapa tränare till Parameterintervall använder du komponenten Tune Model Hyperparameters .

    Varning

    • Om du skickar ett parameterintervall till Train Model använder det bara det första värdet i parameterintervalllistan.

    • Om du skickar en enda uppsättning parametervärden till komponenten Tune Model Hyperparameters ignoreras värdena och standardvärdena används för eleven när det förväntar sig ett intervall med inställningar för varje parameter.

    • Om du väljer alternativet Parameterintervall och anger ett enda värde för valfri parameter används det enskilda värdet som du angav under hela svepet, även om andra parametrar ändras över ett värdeintervall.

  8. Skicka pipelinen.

Resultat

När träningen är klar:

  • Om du vill spara en ögonblicksbild av den tränade modellen väljer du träningskomponenten och växlar sedan till fliken Utdata+loggar i den högra panelen. Klicka på ikonen Registrera datauppsättning. Du hittar den sparade modellen som en komponent i komponentträdet.

Nästa steg

Se den uppsättning komponenter som är tillgängliga för Azure Mašinsko učenje.