Jobbinträde i Apache Spark för Microsoft Fabric

Gäller för:✅ Dataingenjör ing och Datavetenskap i Microsoft Fabric

Apache Spark för Fabric använder den optimistiska jobbantagningstekniken för att fastställa minimikravet för Spark-jobb. Den här processen gäller interaktiva jobb eller batchjobb från notebook-filer, lakehouses eller Spark-jobbdefinitioner. Den förlitar sig på den minsta nodinställningen för den valda Spark-poolen i arbetsyteinställningarna eller den anslutna miljön. Om tillgängliga kärnor hittas i infrastrukturresurskapaciteten som är länkad till arbetsytan godkänns jobbet och påbörjar körningen. Jobb initieras med sin minsta nodinställning och kan skalas upp inom sina maximala nodgränser enligt jobbfaser. Om det totala antalet kärnor som används vid körning av jobb som använder Infrastrukturkapacitet är lägre än de maximala burst-kärnor som tilldelats, tillåter jobbintagnings- och begränsningsskiktet i Fabric Spark jobbet att skalas upp.

Mer information finns i Samtidighetsgränser och köer i Microsoft Fabric Spark.

Hur fungerar optimistisk jobbantagning?

I Infrastruktur har startpooler ett standardvärde på minst en nod, medan anpassade pooler gör att du kan ange minsta noder baserat på arbetsbelastningsbehov. Autoskalning justerar beräkningskraven för Spark-jobb under körningsstegen inom de konfigurerade lägsta och högsta noderna. Optimistisk jobbintagning utvärderar jobbinlämningar baserat på tillgängliga kärnor och kör dem med minsta antal kärnor. Jobb försöker växa baserat på maximalt antal allokerade noder under körningen. Uppskalningsbegäranden godkänns om det totala antalet Spark-kärnor som används ligger inom allokerade kapacitetsgränser.

Kommentar

Om användningen når den maximala gränsen och alla kärnor inom den totala kapaciteten för Infrastrukturresurser används, nekas alla uppskalningsbegäranden. Aktiva jobb måste antingen slutföras eller avbrytas för att frigöra kärnor.

Hur påverkar detta samtidigheten i jobbet?

Minimikravet för varje jobb avgör om jobbet kan accepteras. Om kapaciteten används fullt ut och inte har några kärnor kvar för att uppfylla ett jobbs minsta kärnbehov avvisas jobbet. Interaktiva notebook-jobb eller Lakehouse-åtgärder blockeras med ett felmeddelande Det går inte att skicka den här begäran eftersom all tillgänglig kapacitet används för närvarande. Avbryt ett jobb som körs, öka den tillgängliga kapaciteten eller försök igen senare. Batchjobb placeras i kö och körs när kärnor blir tillgängliga.

Tänk dig till exempel ett scenario där en användare använder SKU:n för Infrastruktur F32-kapacitet. Förutsatt att alla jobb använder standardinställningen för startpoolen utan optimistisk jobbinträde skulle kapaciteten ha stöd för maximal samtidighet på tre jobb. Det maximala antalet kärnor per jobb allokeras enligt konfigurationen för maximala noder.

Skärmbild som visar jobbets samtidighet utan optimistisk jobbantagning i Fabric Spark.

Med optimistisk jobbinträde med samma kapacitet som ovan kan 24 jobb tillåtas och köras med hjälp av deras minsta nodkonfiguration under scenariot med maximal samtidighet. Eftersom varje jobb kräver 8 virtuella Spark-kärnor där en minsta nodkonfiguration är av medelstorlek.

Skärmbild som visar jobbets samtidighet med optimistisk jobbinträde i Fabric Spark.

Skala jobb med Autoskalning i Spark

När du aktiverar autoskalning för Spark-pooler körs jobb med deras minsta nodkonfiguration. Under körningen kan skalning ske. Dessa begäranden går igenom kontrollen för jobbinträde. Godkända begäranden skalar upp till de maximala gränserna baserat på totalt antal tillgängliga kärnor. Avvisade begäranden påverkar inte aktiva jobb. de fortsätter att köras med sin aktuella konfiguration tills kärnor blir tillgängliga.

Skärmbild som visar ett jobb som skalas upp med optimistisk jobbantagning i Fabric Spark.

Kommentar

Om du vill säkerställa maximal kärnallokering för ett jobb enligt konfigurationen för maximala noder inaktiverar du autoskalning och anger maximalt antal noder i SKU:n för Infrastrukturkapacitet. I det här fallet, eftersom jobbet inte har något minimikrav, börjar det köras när kostnadsfria kärnor är tillgängliga, vilket skalar upp till den konfigurerade summan. Om kapaciteten används fullt ut kan interaktiva notebook-jobb sakta ned eller placeras i kö. Köade jobb görs automatiskt när kärnor blir tillgängliga.