Transformación de datos mediante la ejecución de Synapse Notebook (cuaderno de Synapse)

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.

La actividad de Azure Synapse Notebook en una canalización ejecuta un cuaderno de Synapse en el área de trabajo de Azure Synapse Analytics. Este artículo se basa en el artículo sobre actividades de transformación de datos , que presenta información general de la transformación de datos y las actividades de transformación admitidas.

Puede crear una actividad de cuaderno de Azure Synapse Analytics directamente a través de la interfaz de usuario de Azure Data Factory Studio. Para ver un tutorial paso a paso sobre cómo crear una actividad de cuaderno de Synapse mediante la interfaz de usuario, puede consultar lo siguiente.

Agregar una actividad de Notebook para Synapse a una canalización con UI

Para usar una actividad de Notebook para Synapse en una canalización, complete los siguientes pasos:

Configuración general

  1. Busque Notebook en el panel Actividades de canalización y arrastre una actividad de Notebook en Synapse al lienzo de la canalización.
  2. Seleccione la nueva actividad de Notebook en el lienzo si aún no está seleccionada.
  3. En la pestaña General, escriba “sample” (muestra) en el cuadro Nombre.
  4. (Opción) También puede escribir una descripción.
  5. Tiempo de espera: cantidad máxima de tiempo que se puede ejecutar una actividad. El valor predeterminado es 12 horas y la cantidad máxima de tiempo permitido es de 7 días. El formato es D.HH:MM:SS.
  6. Reintento: número máximo de reintentos.
  7. Intervalo de reintento (seg.): Número de segundos entre cada reintento.
  8. Secure output (Salida segura): cuando se selecciona, no se captura en el registro la salida de la actividad.
  9. Secure input (Entrada segura): cuando se selecciona, no se captura en el registro la entrada de la actividad.

Configuración de Azure Synapse Analytics (Artifacts)

Seleccione la pestaña Azure Synapse Analytics (Artifacts) para seleccionar o crear un nuevo servicio vinculado a Azure Synapse Analytics que ejecutará la actividad de Notebook.

Captura de pantalla de la pestaña del servicio vinculado para una actividad de Notebook.

Pestaña Settings

  1. Seleccione la nueva actividad de Synapse Notebook en el lienzo si aún no está seleccionada.

  2. Seleccione la pestaña Configuración.

  3. Expanda la lista Notebook, puede seleccionar un cuaderno existente en la instancia de Azure Synapse Analytics (Artifacts) vinculada.

  4. Haga clic en el botón Abrir para abrir la página del servicio vinculado donde se encuentra el cuaderno seleccionado.

Nota

Si el id. de recurso del área de trabajo del servicio vinculado está vacío, se deshabilitará el botón Abrir.

Captura de pantalla que muestra el botón abrir deshabilitado.

  1. Seleccione la pestaña Configuración y elija el cuaderno y los parámetros base opcionales que se van a pasar al cuaderno.

    Captura de pantalla que muestra la pestaña Configuración de una actividad de Notebook.

  2. (Opcional) Puede rellenar la información del cuaderno de Synapse. Si la siguiente configuración está vacía, se usará la configuración del propio cuaderno de Synapse para ejecutarse. Si la siguiente configuración no está vacía, esta configuración reemplazará la configuración del propio cuaderno de Synapse.

    Propiedad Descripción
    Grupo de Spark Referencie el grupo de Spark. Puede seleccionar el grupo de Apache Spark en la lista.
    Executor size (Tamaño del ejecutor) El número de núcleos y la memoria que se usarán para los ejecutores asignados en el grupo de Spark especificado para la sesión. Para el contenido dinámico, los valores válidos son Small/Medium/Large/XLarge/XXLarge.
    Asignación dinámica de ejecutores Esta configuración se asigna a la propiedad de asignación dinámica de la configuración de Spark para la asignación de ejecutores de aplicaciones de Spark.
    Mínimo de ejecutores Número mínimo de ejecutores que se asignarán en el grupo de Spark especificado para el trabajo.
    Máximo de ejecutores Número máximo de ejecutores que se asignarán en el grupo de Spark especificado para el trabajo.
    Driver size (Tamaño del controlador) Número de núcleos y memoria que se van a usar para el controlador proporcionado en el grupo de Apache Spark especificado para el trabajo.

Definición de actividad de Azure Synapse Analytics Notebook

Esta es la definición JSON de ejemplo de una actividad de Azure Synapse Analytics Notebook:

{
    "activities": [
            {
                "name": "demo",
                "description": "description",
                "type": "SynapseNotebook",
                "dependsOn": [],
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "userProperties": [
                    {
                        "name": "testproperties",
                        "value": "test123"
                    }
                ],
                "typeProperties": {
                    "notebook": {
                        "referenceName": {
                            "value": "Notebookname",
                            "type": "Expression"
                        },
                        "type": "NotebookReference"
                    },
                    "parameters": {
                        "test": {
                            "value": "testvalue",
                            "type": "string"
                        }
                    },
                    "snapshot": true,
                    "sparkPool": {
                        "referenceName": {
                            "value": "SampleSpark",
                            "type": "Expression"
                        },
                        "type": "BigDataPoolReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "AzureSynapseArtifacts1",
                    "type": "LinkedServiceReference"
                }
            }
        ]
    }

Propiedades de actividad de Azure Synapse Analytics Notebook

En la siguiente tabla se describen las propiedades JSON que se usan en la definición de JSON:

Propiedad Descripción Obligatorio
name Nombre de la actividad en la canalización.
description Texto que describe para qué se usa la actividad. No
type Para la actividad de Azure Synapse Analytics Notebook, el tipo de actividad es SynapseNotebook.
notebook Nombre del cuaderno que se va a ejecutar en Azure Synapse Analytics.
sparkPool El grupo de Spark necesario para ejecutar Azure Synapse Analytics Notebook. No
parámetro Parámetro necesario para ejecutar Azure Synapse Analytics Notebook. Para más información, consulte Transformación de datos mediante la ejecución de un cuaderno de Synapse No

Designación de una celda de parámetros

Azure Data Factory busca la celda de parámetros y utiliza los valores como valores predeterminados para los parámetros que se pasan en tiempo de ejecución. El motor de ejecución agregará una nueva celda debajo de la celda de parámetros con los parámetros de entrada que van a sobrescribir los valores predeterminados. Puede consultar Transformación de datos mediante la ejecución de un cuaderno de Synapse.

Lectura del valor de salida de la celda del cuaderno de Synapse

Puede leer el valor de salida de celda del cuaderno en la actividad; para este panel, puede consultar Transformar datos mediante la ejecución de un cuaderno de Synapse.

Ejecución de otro cuaderno de Synapse

Puede hacer referencia a otros cuadernos de una actividad de cuaderno de Synapse mediante una llamada a %run magic o las utilidades de cuaderno mssparkutils. Ambos admiten llamadas de función de anidamiento. Las diferencias principales entre estos dos métodos que debe tener en cuenta en función de su escenario son:

  • %run magic copia todas las celdas del cuaderno al que se hace referencia en la celda %run y comparte el contexto de variables. Cuando notebook1 hace referencia a notebook2 mediante %run notebook2 y notebook2 llama a una función mssparkutils.notebook.exit, se detendrá la ejecución de celdas en notebook1. Se recomienda usar %run magic cuando quiera "incluir" un archivo de cuaderno.
  • mssparkutils notebook utilities llama al cuaderno al que se hace referencia como un método o una función. No se comparte el contexto de variables. Cuando notebook1 hace referencia a notebook2 mediante mssparkutils.notebook.run("notebook2") y notebook2 llama a una función mssparkutils.notebook.exit, la ejecución de celdas en notebook1 continuará. Se recomienda usar las utilidades de cuaderno mssparkutils cuando quiera "importar" un cuaderno.

Consulte el historial de ejecución de actividades de Azure Synapse Analytics Notebook

Vaya a Pipeline runs (Ejecuciones de canalización) en la pestaña Monitor (Supervisión); verá la canalización que ha desencadenado. Abra la canalización que contiene la actividad de cuaderno para ver el historial de ejecución.

Captura de pantalla de la entrada y salida de una actividad de Notebook.

En el caso de la instantánea Abrir cuaderno, esta característica no se admite actualmente.

Para ver la entrada o la salida de la actividad de cuaderno, seleccione el botón de entrada o salida. Si se produce un error de usuario en la canalización, seleccione la salida para comprobar el campo result (resultado) y ver el seguimiento de errores de usuario detallado.

Captura de pantalla del error de usuario de salida para una actividad de Notebook.