Transformación de datos en Azure Data Factory y Azure Synapse Analytics

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.

Importante

La compatibilidad con Estudio de Azure Machine Learning (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

Desde el 1 de diciembre de 2021, no se puede crear nuevos recursos de Estudio de Machine Learning (clásico) (área de trabajo y plan de servicio web). Hasta el 31 de agosto de 2024, podrá seguir usando los experimentos y servicios web existentes de Estudio de Machine Learning (clásico). Para más información, vea:

La documentación de Estudio de Machine Learning (clásico) se va a retirar y es posible que no se actualice en el futuro.

Información general

En este artículo se explican las actividades de transformación de datos de Azure Data Factory y las canalizaciones de Synapse que puede usar para transformar y procesar los datos sin procesar en predicciones y conclusiones a gran escala. Una actividad de transformación se ejecuta en un entorno informático, como Azure Databricks o Azure HDInsight. Proporciona vínculos a artículos con información detallada sobre cada actividad de transformación.

El servicio admite las siguientes actividades de transformación de datos que se pueden agregar a canalizaciones, tanto de forma individual como encadenadas a otra actividad.

Transformación nativa en Azure Data Factory y Azure Synapse Analytics con flujos de datos

Asignación de flujos de datos

La asignación de flujos de datos es una transformación de datos diseñada visualmente en Azure Data Factory y Azure Synapse. Los flujos de datos permiten a los ingenieros de datos desarrollar una lógica de transformación de datos gráfica sin necesidad de escribir código. Los flujos de datos resultantes se ejecutan como actividades en las canalizaciones que usan clústeres de Spark de escalabilidad horizontal. Las actividades de flujo de datos pueden ponerse en marcha mediante las funcionalidades de programación, control, flujo y supervisión existentes en el servicio. Para más información, consulte Asignación de flujos de datos.

Limpieza y transformación de datos

Power Query en Azure Data Factory permite la limpieza y transformación de datos a escala de nube, lo que permite preparar los datos sin código a escala de nube de forma iterativa. La limpieza y transformación de datos se integra con Power Query Online y permite que estén disponibles las funciones de Power Query M para la limpieza y transformación de datos a escala de nube a través de la ejecución de Spark. Para más información, consulte Limpieza y transformación de datos en Azure Data Factory.

Nota

Power Query solo se admite actualmente en Azure Data Factory, no en Azure Synapse. Para ver una lista de características específicas admitidas en cada servicio, consulte Características disponibles en Azure Data Factory y canalizaciones de Azure Synapse Analytics.

Transformaciones externas

Opcionalmente, puede codificar manualmente las transformaciones y administrar el entorno de proceso externo.

Actividad de HDInsight Hive

La actividad de Hive de HDInsight en una canalización ejecuta consultas de Hive en un clúster de HDInsight propio o a petición basado en Windows o Linux. Vea el artículo Actividad de Hive para más información sobre esta actividad.

Actividad de HDInsight Pig

La actividad de Pig de HDInsight en una canalización ejecuta consultas de Pig en un clúster de HDInsight propio o a petición basado en Windows o Linux. Vea el artículo Actividad de Pig para más información sobre esta actividad.

Actividad de MapReduce de HDInsight

La actividad de MapReduce de HDInsight en una canalización ejecuta programas de MapReduce en un clúster de HDInsight propio o a petición basado en Windows o Linux. Vea el artículo Actividad de MapReduce para más información sobre esta actividad.

Actividad de HDInsight Streaming

La actividad de Streaming de HDInsight en una canalización ejecuta programas de Streaming de Hadoop en un clúster de HDInsight propio o a petición basado en Windows o Linux. Vea Actividad de HDInsight Streaming para obtener información sobre esta actividad.

Actividad de HDInsight Spark

La actividad de Spark de HDInsight en una canalización ejecuta consultas de Spark en su propio clúster de HDInsight. Para más información, consulte Invocación de programas de Spark con Azure Data Factory o Azure Synapse Analytics.

Actividades de ML Studio (clásico)

Importante

La compatibilidad con Estudio de Azure Machine Learning (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

Desde el 1 de diciembre de 2021, no se puede crear nuevos recursos de Estudio de Machine Learning (clásico) (área de trabajo y plan de servicio web). Hasta el 31 de agosto de 2024, podrá seguir usando los experimentos y servicios web existentes de Estudio de Machine Learning (clásico). Para más información, vea:

La documentación de Estudio de Machine Learning (clásico) se va a retirar y es posible que no se actualice en el futuro.

Azure Data Factory permite crear fácilmente canalizaciones que usan un servicio web de Machine Learning Studio (clásico) publicado para realizar análisis predictivos. Mediante la actividad de ejecución por lotes en una canalización, puede invocar un servicio web de Studio (clásico) para realizar predicciones sobre los datos del lote.

Con el tiempo, los modelos predictivos de los experimentos de puntuación de Studio (clásico) se tienen que volver a entrenar con nuevos conjuntos de datos de entrada. Después de terminar con el nuevo entrenamiento, tendrá que actualizar el servicio web de puntuación con el modelo de Machine Learning que volvió a entrenar. Puede usar la actividad de recursos de actualización para actualizar el servicio web con el modelo recién entrenado.

Consulte Uso de actividades de ML Studio (clásico) para más información al respecto.

Actividad de procedimiento almacenado

Puede usar la actividad de procedimiento almacenado de SQL Server en una canalización de Data Factory para invocar un procedimiento almacenado en uno de los siguientes almacenes de datos: Azure SQL Database, Azure Synapse Analytics y base de datos de SQL Server en una empresa o una máquina virtual de Azure. Vea el artículo Actividad de procedimiento almacenado para más información.

Actividad de U-SQL de Data Lake Analytics

La actividad de U-SQL de Data Lake Analytics ejecuta un script de U-SQL en un clúster de Azure Data Lake Analytics. Vea el artículo Actividad de U-SQL de Data Analytics para más información.

Actividad de Notebook de Azure Synapse

La actividad de cuaderno de Azure Synapse de una canalización de Synapse ejecuta un cuaderno de Synapse en el área de trabajo de Azure Synapse. Consulte Transformación de datos mediante la ejecución de un cuaderno de Azure Synapse.

Actividad Notebook de Databricks

La actividad de Notebook de Azure Databricks en una canalización ejecuta un cuaderno de Databricks en el área de trabajo de Azure Databricks. Azure Databricks es una plataforma administrada para ejecutar Apache Spark. Consulte Transformación de datos mediante la ejecución de blocs de notas de Databricks.

Actividad de Jar en Databricks

La actividad de Jar de Azure Databricks en una canalización ejecuta un archivo Jar de Spark en el clúster de Azure Databricks. Azure Databricks es una plataforma administrada para ejecutar Apache Spark. Consulte Transformación de datos mediante la ejecución de una actividad de Jar en Azure Databricks.

Actividad de Python en Databricks

La actividad de Python de Azure Databricks en una canalización ejecuta un archivo de Python en el clúster de Azure Databricks. Azure Databricks es una plataforma administrada para ejecutar Apache Spark. Consulte Transformación de datos mediante la ejecución de una actividad de Python en Azure Databricks.

Actividad personalizada

Si necesita transformar datos de algún modo no compatible con Data Factory, puede crear una actividad personalizada con su propia lógica de procesamiento de datos y usarla en la canalización. Puede configurar una actividad de .NET personalizada para ejecutarse mediante un servicio Azure Batch o un clúster de Azure HDInsight. Consulte el artículo Utilizar actividades personalizadas para obtener más información.

Puede crear una actividad personalizada para ejecutar scripts de R en su clúster de HDInsight con R instalado. Consulte Ejecución de un script de R mediante Azure Data Factory y canalizaciones de Synapse.

Entornos de proceso

Deberá crear un servicio vinculado para el entorno de proceso y después usar el servicio vinculado al definir una actividad de transformación. Hay dos tipos admitidos de entornos de proceso.

  • A petición: en este caso, el entorno informático es completamente administrado por el servicio. El servicio lo crea automáticamente antes de que se envíe un trabajo para procesar los datos y se quita cuando finaliza el trabajo. Los usuarios pueden configurar y controlar la configuración granular del entorno de proceso a petición para la ejecución del trabajo, la administración del clúster y las acciones de arranque.
  • Bring Your Own: en este caso, puede registrar su propio entorno informático (por ejemplo, clúster de HDInsight) como servicio vinculado. El usuario administra el entorno informático y el servicio lo usa para ejecutar las actividades.

Consulte el artículo Servicios vinculados de procesos para información sobre los servicios de proceso compatibles.

Vea el siguiente tutorial para ver un ejemplo del uso de una actividad de transformación: Tutorial: Transformación de datos mediante Spark