Fast Forest Quantile Regression
Den här artikeln beskriver en modul i Azure Mašinsko učenje designer.
Använd den här komponenten för att skapa en snabb regressionsmodell för skogens kvantil i en pipeline. Snabb regression av skogskvantilen är användbar om du vill förstå mer om fördelningen av det förutsagda värdet i stället för att få ett enda medelvärde för förutsägelse. Den här metoden har många program, bland annat:
Förutsäga priser
Beräkna elevernas prestanda eller använda tillväxtdiagram för att utvärdera underordnad utveckling
Identifiera förutsägande relationer i fall där det bara finns en svag relation mellan variabler
Den här regressionsalgoritmen är en övervakad inlärningsmetod, vilket innebär att den kräver en taggad datamängd som innehåller en etikettkolumn. Eftersom det är en regressionsalgoritm får etikettkolumnen endast innehålla numeriska värden.
Mer om kvantilregression
Det finns många olika typer av regression. Regression innebär helt enkelt att anpassa en modell till ett mål uttryckt som en numerisk vektor. Statistiker har dock utvecklat allt mer avancerade metoder för regression.
Den enklaste definitionen av kvantil är ett värde som delar upp en uppsättning data i lika stora grupper. Därför markerar kvantilvärdena gränserna mellan grupper. Statistiskt sett är kvantantiles värden som tas med jämna mellanrum från inversen av den kumulativa fördelningsfunktionen (CDF) för en slumpmässig variabel.
Medan linjära regressionsmodeller försöker förutsäga värdet för en numerisk variabel med hjälp av en enda uppskattning, medelvärdet, behöver du ibland förutsäga intervallet eller hela fördelningen av målvariabeln. Tekniker som Bayesian regression och kvantil regression har utvecklats för detta ändamål.
Kvantilregression hjälper dig att förstå fördelningen av det förutsagda värdet. Trädbaserade kvantilregressionsmodeller, till exempel den som används i den här komponenten, har den ytterligare fördelen att de kan användas för att förutsäga icke-parametriska fördelningar.
Så här konfigurerar du Fast Forest Quantile Regression
Lägg till komponenten Fast Forest Quantile Regression i pipelinen i designern. Du hittar den här komponenten under Mašinsko učenje-algoritmer i kategorin Regression.
I den högra rutan i komponenten Fast Forest Quantile Regression anger du hur du vill att modellen ska tränas genom att ange alternativet Skapa träningsläge .
Enskild parameter: Om du vet hur du vill konfigurera modellen anger du en specifik uppsättning värden som argument. När du tränar modellen använder du Träna modell.
Parameterintervall: Om du inte är säker på de bästa parametrarna gör du en parameterrensning med hjälp av komponenten Tune Model Hyperparameters . Utbildaren itererar över flera värden som du anger för att hitta den optimala konfigurationen.
Antal träd, ange det maximala antalet träd som kan skapas i ensemblen. Om du skapar fler träd leder det vanligtvis till större noggrannhet, men på bekostnad av längre träningstid.
Antal löv, ange det maximala antalet löv eller terminalnoder som kan skapas i valfritt träd.
Minsta antal träningsinstanser som krävs för att bilda ett löv, ange det minsta antal exempel som krävs för att skapa en terminalnod (löv) i ett träd.
Genom att öka det här värdet ökar du tröskelvärdet för att skapa nya regler. Med standardvärdet 1 kan till exempel även ett enskilt fall leda till att en ny regel skapas. Om du ökar värdet till 5 måste träningsdata innehålla minst 5 fall som uppfyller samma villkor.
Om du lägger till bråk anger du ett tal mellan 0 och 1 som representerar den del av exemplen som ska användas när varje grupp med kvantantiles skapas. Exempel väljs slumpmässigt, med ersättning.
Dela bråk, skriv ett tal mellan 0 och 1 som representerar den del av funktionerna som ska användas i varje del av trädet. De funktioner som används väljs alltid slumpmässigt.
Kvantantiles ska beräknas, skriv en semikolonavgränsad lista över de kvantantiles som du vill att modellen ska träna och skapa förutsägelser för.
Om du till exempel vill skapa en modell som beräknar för kvartils skriver
0.25; 0.5; 0.75
du .Du kan också ange ett värde för Slumptalsutsäde för att seeda slumptalsgeneratorn som används av modellen. Standardvärdet är 0, vilket innebär att ett slumpmässigt frö väljs.
Du bör ange ett värde om du behöver återskapa resultat över efterföljande körningar på samma data.
Anslut träningsdatauppsättningen och den otränade modellen till någon av träningskomponenterna:
Om du anger Skapa träningsläge till Enskild parameter använder du komponenten Träna modell .
Om du ställer in Läget Skapa tränare till Parameterintervall använder du komponenten Tune Model Hyperparameters .
Varning
Om du skickar ett parameterintervall till Train Model använder det bara det första värdet i parameterintervalllistan.
Om du skickar en enda uppsättning parametervärden till komponenten Tune Model Hyperparameters ignoreras värdena och standardvärdena används för eleven när det förväntar sig ett intervall med inställningar för varje parameter.
Om du väljer alternativet Parameterintervall och anger ett enda värde för valfri parameter används det enskilda värdet som du angav under hela svepet, även om andra parametrar ändras över ett värdeintervall.
Skicka pipelinen.
Resultat
När träningen är klar:
- Om du vill spara en ögonblicksbild av den tränade modellen väljer du träningskomponenten och växlar sedan till fliken Utdata+loggar i den högra panelen. Klicka på ikonen Registrera datauppsättning. Du hittar den sparade modellen som en komponent i komponentträdet.
Utvärderingsmått
Du kan använda komponenten Utvärdera modell för att utvärdera den tränade modellen. För Fast Forest Quantile Regression är måtten följande.
- Kvantilförlust: Det här är ett mått på felet för en specifik kvantil i din modell.
- Genomsnittlig quantilförlust: Detta är helt enkelt medelvärdet av kvantilförlustvärdena för alla quantiles som beaktas i modellen. Det ger ett övergripande mått på hur bra modellen presterar i alla kvantantiklar.
Nästa steg
Se den uppsättning komponenter som är tillgängliga för Azure Mašinsko učenje.