Transformera data genom att köra en Synapse Notebook

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Dricks

Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!

Azure Synapse Notebook-aktiviteten i en pipeline kör en Synapse-anteckningsbok på din Azure Synapse Analytics-arbetsyta. Den här artikeln bygger på artikeln om datatransformeringsaktiviteter , som visar en allmän översikt över datatransformering och de omvandlingsaktiviteter som stöds.

Du kan skapa en Azure Synapse Analytics-notebook-aktivitet direkt via Azure Data Factory Studio-användargränssnittet. En stegvis genomgång av hur du skapar en Synapse Notebook-aktivitet med hjälp av användargränssnittet finns i följande.

Lägga till en Notebook-aktivitet för Synapse i en pipeline med användargränssnittet

Utför följande steg för att använda en Notebook-aktivitet för Synapse i en pipeline:

Allmänna inställningar

  1. Sök efter Notebook i fönstret Pipelineaktiviteter och dra en notebook-aktivitet under Synapse till pipelinearbetsytan.
  2. Välj den nya notebook-aktiviteten på arbetsytan om den inte redan är markerad.
  3. I Allmänna inställningar anger du exempel för Namn.
  4. (Alternativ) Du kan också ange en beskrivning.
  5. Tidsgräns: Maximal tid som en aktivitet kan köras. Standardvärdet är 12 timmar och den maximala tillåtna tiden är 7 dagar. Formatet finns i D.HH:MM:SS.
  6. Försök igen: Maximalt antal återförsök.
  7. Återförsöksintervall (sek): Antalet sekunder mellan varje återförsök.
  8. Säkra utdata: När den är markerad registreras inte utdata från aktiviteten i loggningen.
  9. Säkra indata: När den är markerad registreras inte indata från aktiviteten i loggningen.

Azure Synapse Analytics-inställningar (artefakter)

Välj fliken Azure Synapse Analytics (Artifacts) för att välja eller skapa en ny länkad Azure Synapse Analytics-tjänst som ska köra notebook-aktiviteten.

Skärmbild av den länkade tjänstfliken för en Notebook-aktivitet.

Fliken Inställningar

  1. Välj den nya Synapse Notebook-aktiviteten på arbetsytan om den inte redan är markerad.

  2. Välj fliken Inställningar.

  3. Expandera notebook-listan. Du kan välja en befintlig notebook-fil i den länkade Azure Synapse Analytics (Artifacts).

  4. Klicka på knappen Öppna för att öppna sidan för den länkade tjänst där den valda notebook-filen finns.

Kommentar

Om arbetsytans resurs-ID i den länkade tjänsten är tomt inaktiveras knappen Öppna.

Skärmbild av knappen Öppna är inaktiverad.

  1. Välj fliken Inställningar och välj anteckningsboken och valfria basparametrar som ska skickas till notebook-filen.

    Skärmbild av fliken Inställningar för en notebook-aktivitet.

  2. (Valfritt) Du kan fylla i information för Synapse Notebook. Om följande inställningar är tomma används inställningarna för själva Synapse-anteckningsboken för att köras. Om följande inställningar inte är tomma ersätter de här inställningarna inställningarna för själva Synapse-anteckningsboken.

    Property beskrivning
    Spark-pool Referens till Spark-poolen. Du kan välja Apache Spark-pool i listan.
    Storlek på köre Antal kärnor och minne som ska användas för utförare som allokerats i den angivna Apache Spark-poolen för sessionen. För dynamiskt innehåll är giltiga värden Small/Medium/Large/XLarge/XXLarge.
    Dynamiskt allokera köre Den här inställningen mappar till den dynamiska allokeringsegenskapen i Spark-konfigurationen för Spark Application Executors-allokering.
    Minsta körbara filer Minsta antal utförare som ska allokeras i den angivna Spark-poolen för jobbet.
    Maximalt antal körbara filer Maximalt antal utförare som ska allokeras i den angivna Spark-poolen för jobbet.
    Drivrutinsstorlek Antal kärnor och minne som ska användas för drivrutinen som anges i den angivna Apache Spark-poolen för jobbet.

Aktivitetsdefinition för Azure Synapse Analytics Notebook

Här är JSON-exempeldefinitionen för en Azure Synapse Analytics Notebook-aktivitet:

{
    "activities": [
            {
                "name": "demo",
                "description": "description",
                "type": "SynapseNotebook",
                "dependsOn": [],
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "userProperties": [
                    {
                        "name": "testproperties",
                        "value": "test123"
                    }
                ],
                "typeProperties": {
                    "notebook": {
                        "referenceName": {
                            "value": "Notebookname",
                            "type": "Expression"
                        },
                        "type": "NotebookReference"
                    },
                    "parameters": {
                        "test": {
                            "value": "testvalue",
                            "type": "string"
                        }
                    },
                    "snapshot": true,
                    "sparkPool": {
                        "referenceName": {
                            "value": "SampleSpark",
                            "type": "Expression"
                        },
                        "type": "BigDataPoolReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "AzureSynapseArtifacts1",
                    "type": "LinkedServiceReference"
                }
            }
        ]
    }

Aktivitetsegenskaper för Azure Synapse Analytics Notebook

I följande tabell beskrivs de JSON-egenskaper som används i JSON-definitionen:

Property Beskrivning Obligatoriskt
name Namnet på aktiviteten i pipelinen. Ja
description Text som beskriver vad aktiviteten gör. Nej
type För Azure Synapse Analytics Notebook Activity är aktivitetstypen SynapseNotebook. Ja
notebook-fil Namnet på anteckningsboken som ska köras i Azure Synapse Analytics. Ja
sparkPool Spark-poolen som krävs för att köra Azure Synapse Analytics Notebook. Nej
parameter Parameter som krävs för att köra Azure Synapse Analytics Notebook. Mer information finns i Transformera data genom att köra en Synapse-anteckningsbok Nej

Ange en parametercell

Azure Data Factory söker efter parametercellen och använder värdena som standardvärden för de parametrar som skickades in vid körningen. Körningsmotorn lägger till en ny cell under parametercellen med indataparametrar för att skriva över standardvärdena. Du kan referera till Transformera data genom att köra en Synapse-anteckningsbok.

Läs utdatavärdet för Synapse Notebook-cell

Du kan läsa utdatavärdet för notebook-celler i aktiviteten. För den här panelen kan du läsa Transformera data genom att köra en Synapse-anteckningsbok.

Kör en annan Synapse-anteckningsbok

Du kan referera till andra notebook-filer i en Synapse Notebook-aktivitet genom att anropa %run magic eller mssparkutils notebook-verktyg. Båda stöder kapslingsfunktionsanrop. De viktigaste skillnaderna mellan dessa två metoder som du bör överväga baserat på ditt scenario är:

  • %run magic kopierar alla celler från den refererade notebook-filen till cellen %run och delar variabelkontexten. När notebook1 refererar till notebook2 via %run notebook2 och notebook2 anropar en mssparkutils.notebook.exit-funktion stoppas cellkörningen i notebook1. Vi rekommenderar att du använder %run magic när du vill "inkludera" en notebook-fil.
  • mssparkutils notebook-verktyg anropar den refererade notebook-filen som en metod eller en funktion. Variabelkontexten delas inte. När notebook1 refererar till notebook2 via mssparkutils.notebook.run("notebook2") och notebook2 anropar en mssparkutils.notebook.exit-funktion fortsätter cellkörningen i notebook1. Vi rekommenderar att du använder notebook-verktygen mssparkutils när du vill "importera" en notebook-fil.

Se Aktivitetskörningshistorik för Azure Synapse Analytics Notebook

Gå till Pipelinekörningar under fliken Övervaka . Du ser den pipeline som du har utlöst. Öppna pipelinen som innehåller notebook-aktivitet för att se körningshistoriken.

Skärmbild av indata och utdata för en Notebook-aktivitet.

För ögonblicksbilder av öppna notebook-filer stöds inte den här funktionen för närvarande.

Du kan se in- eller utdata för notebook-aktiviteten genom att välja indata- eller utdataknappen. Om pipelinen misslyckades med ett användarfel markerar du utdata för att kontrollera resultatfältet för att se den detaljerade spårningen av användarfel.

Skärmbild av utdataanvändarfelet för en Notebook-aktivitet.