Novedades y planeadas para Data Factory en Microsoft Fabric
Importante
Los planes de versión describen la funcionalidad que puede haberse publicado o no. Las escalas de tiempo de entrega y la funcionalidad proyectada pueden cambiar o no enviarse. Consulte la directiva de Microsoft para obtener más información.
Data Factory en Microsoft Fabric combina la integración de datos ciudadanos y las funcionalidades de integración de datos profesionales en una única experiencia de integración de datos moderna. Proporciona conectividad a más de 100 bases de datos relacionales y no relacionales, almacenes de lago, almacenes de datos, interfaces genéricas, como API REST, OData, etc.
Flujos de datos: Dataflow Gen2 permite realizar transformaciones de datos a gran escala y admite varios destinos de salida que escriben en Azure SQL Database, Lakehouse, Data Warehouse, etc. El editor de flujos de datos ofrece más de 300 transformaciones, incluidas las opciones basadas en inteligencia artificial, y permite transformar los datos fácilmente con una mayor flexibilidad que cualquier otra herramienta. Independientemente de si va a extraer datos de un origen de datos no estructurado, como una página web o volver a dar forma a una tabla existente en el editor de Power Query, puede aplicar fácilmente la extracción de datos de Power Query por ejemplo, que usa inteligencia artificial (IA) y simplifica el proceso.
Canalizaciones de datos: las canalizaciones de datos ofrecen la capacidad de crear flujos de trabajo versátiles de orquestación de datos que reúnen tareas como la extracción de datos, la carga en almacenes de datos preferidos, la ejecución de cuadernos, la ejecución de scripts SQL, etc. Puede crear rápidamente canalizaciones de datos eficaces controladas por metadatos que automatizan tareas repetitivas. Por ejemplo, cargar y extraer datos de diferentes tablas de una base de datos, recorrer en iteración varios contenedores de Azure Blob Storage, etc. Además, con canalizaciones de datos, puede acceder a los datos de Microsoft 365 mediante el conector de conexión de datos de Microsoft Graph (MGDC).
Para obtener más información, consulte la documentación.
Áreas de inversión
Durante los próximos meses, Data Factory en Microsoft Fabric expandirá sus opciones de conectividad y seguirá agregando a la biblioteca enriquecida de transformaciones y actividades de canalización de datos. Además, permite realizar la replicación de datos en tiempo real y de alto rendimiento desde bases de datos operativas y llevar estos datos al lago para el análisis.
Compatibilidad con la canalización de datos para DBT
Escala de tiempo de lanzamiento estimada: Q1 2024
Tipo de versión: versión preliminar pública
Orquestación de la CLI de DBT (Herramienta de compilación de datos): incorpora la herramienta de compilación de datos (dbt) para los flujos de trabajo de transformación de datos.
Compatibilidad con copia rápida en Dataflow Gen2
Escala de tiempo de lanzamiento estimada: Q3 2024
Tipo de versión: disponibilidad general
Estamos agregando compatibilidad con la ingesta de datos a gran escala directamente dentro de la experiencia de Dataflow Gen2, mediante la funcionalidad de la actividad de copia de canalizaciones. Esta mejora escala considerablemente la capacidad de procesamiento de datos de Dataflow Gen2, lo que proporciona funcionalidades elT a gran escala (extract-load-transform).
Administración de identidades de origen de datos (identidad administrada)
Escala de tiempo de lanzamiento estimada: Q3 2024
Tipo de versión: versión preliminar pública
Esto permite configurar la identidad administrada en un nivel de área de trabajo. Puede usar las identidades administradas de Fabric para conectarse al origen de datos de forma segura.
Integración de Git de Data Factory para flujos de datos
Escala de tiempo de lanzamiento estimada: Q4 2024
Tipo de versión: versión preliminar pública
Puede conectarse a un repositorio de Git y desarrollar los flujos de datos. Esta funcionalidad permite la integración con el control de versiones y ofrece confirmaciones y solicitudes de incorporación de cambios.
Copilot para Data Factory (canalización de datos)
Escala de tiempo de lanzamiento estimada: Q4 2024
Tipo de versión: versión preliminar pública
Copilot para Data Factory (canalización de datos) permite a los clientes crear canalizaciones de datos mediante lenguaje natural y proporciona instrucciones de solución de problemas.
Características enviadas
Compatibilidad con la puerta de enlace de datos local (OPDG) agregada a las canalizaciones de datos
Enviado (Q3 2024)
Tipo de versión: disponibilidad general
Esta característica permite que las canalizaciones de datos usen puertas de enlace de datos de Fabric para acceder a los datos locales y detrás de una red virtual. Para los usuarios que usan entornos de ejecución de integración autohospedados (SHIR), podrán moverse a puertas de enlace de datos locales en Fabric.
Compatibilidad con la invocación de canalizaciones de datos entre áreas de trabajo
Enviado (Q3 2024)
Tipo de versión: versión preliminar pública
Invocar actualización de actividad de canalizaciones: habilitamos algunas actualizaciones nuevas y emocionantes en la actividad Invocar canalización. En respuesta a las solicitudes abrumadoras de clientes y de la comunidad, estamos habilitando la ejecución de canalizaciones de datos entre áreas de trabajo. Ahora podrá invocar canalizaciones desde otras áreas de trabajo a las que tenga acceso para ejecutar. Esto permitirá patrones de flujo de trabajo de datos muy interesantes que pueden usar la colaboración de los equipos de ingeniería e integración de datos en áreas de trabajo y en equipos funcionales.
Azure Data Factory en Fabric
Enviado (Q3 2024)
Tipo de versión: versión preliminar pública
Lleve la instancia de Azure Data Factory (ADF) existente al área de trabajo de Fabric. Se trata de una nueva funcionalidad de versión preliminar que le permite conectarse a los generadores de ADF existentes desde el área de trabajo de Fabric.
Ahora podrá administrar completamente las factorías de ADF directamente desde la interfaz de usuario del área de trabajo de Fabric. Una vez que la instancia de ADF esté vinculada al área de trabajo de Fabric, podrá desencadenar, ejecutar y supervisar las canalizaciones como lo hace en ADF, pero directamente dentro de Fabric.
Compatibilidad con la actualización incremental en Dataflow Gen2
Enviado (Q3 2024)
Tipo de versión: versión preliminar pública
Estamos agregando compatibilidad con la actualización incremental en Dataflow Gen2. Esta característica permite extraer datos de orígenes de datos de forma incremental, aplicar transformaciones de Power Query y cargarlos en varios destinos de salida.
Compatibilidad con la canalización de datos para trabajos de Azure Databricks
Enviado (Q3 2024)
Tipo de versión: versión preliminar pública
Estamos actualizando las canalizaciones de datos de Data Factory actividades de Azure Databricks para que ahora usen la API de trabajos más reciente, lo que permite funcionalidades de flujo de trabajo interesantes, como la ejecución de trabajos DLT.
Notificaciones de correo electrónico mejoradas para errores de actualización
Enviado (Q3 2024)
Tipo de versión: versión preliminar pública
Las notificaciones por correo electrónico permiten a los creadores de Dataflow Gen2 supervisar los resultados (éxito o error) de la operación de actualización de un flujo de datos.
Copiar trabajo
Enviado (Q3 2024)
Tipo de versión: versión preliminar pública
El trabajo de copia simplifica la experiencia de los clientes que necesitan ingerir datos, sin tener que crear un flujo de datos o una canalización de datos. Copy Job admite la copia completa e incremental de cualquier origen de datos a cualquier destino de datos. Regístrese para versión preliminar privada ahora.
Copilot para Data Factory (flujo de datos)
Enviado (Q3 2024)
Tipo de versión: disponibilidad general
Copilot para Data Factory (Flujo de datos) permite a los clientes expresar sus requisitos mediante lenguaje natural al crear soluciones de integración de datos con Dataflows Gen2.
Valores predeterminados de almacenamiento provisional para el destino de salida de Dataflow Gen 2
Enviado (Q2 2024)
Tipo de versión: versión preliminar pública
Dataflow Gen2 proporciona funcionalidades para ingerir datos de una amplia gama de orígenes de datos en Fabric OneLake. Al almacenar provisionalmente estos datos, se puede transformar a gran escala aprovechando el motor de flujos de datos a gran escala Gen2 (basado en el proceso sql de Fabric Lakehouse/Warehouse).
El comportamiento predeterminado de Dataflows Gen2 es almacenar provisionalmente los datos en OneLake para habilitar transformaciones de datos a gran escala. Aunque esto funciona bien para escenarios a gran escala, no funciona tan bien para escenarios que implican pequeñas cantidades de datos que se ingieren, dado que introduce un salto adicional (almacenamiento provisional) para los datos antes de cargarlos en última instancia en el destino de salida del flujo de datos.
Con las mejoras planeadas, estamos ajustando el comportamiento de almacenamiento provisional predeterminado que se deshabilitará, para las consultas con un destino de salida que no requiera almacenamiento provisional (es decir, Fabric Lakehouse y Azure SQL Database).
El comportamiento de almacenamiento provisional se puede configurar manualmente por consulta mediante el panel Configuración de consulta o el menú contextual de consulta en el panel Consultas.
Compatibilidad de canalización de datos con desencadenadores controlados por eventos
Enviado (Q2 2024)
Tipo de versión: versión preliminar pública
Un caso de uso común para invocar canalizaciones de datos de Data Factory es desencadenar la canalización tras eventos de archivo, como la llegada de archivos y la eliminación de archivos. Para los clientes procedentes de ADF o Synapse a Fabric, el uso de eventos de almacenamiento de ADLS/Blog es muy común como una manera de indicar una nueva ejecución de canalización o capturar los nombres de los archivos creados. Los desencadenadores de Fabric Data Factory aprovechan las funcionalidades de la plataforma Fabric, incluidos los desencadenadores EventStreams y Reflex. Dentro del lienzo de diseño de canalización de Fabric Data Factory, tendrá un botón Desencadenador que puede presionar para crear un desencadenador Reflex para la canalización o puede crear el desencadenador directamente desde la experiencia de Desencadenador de datos.
Compatibilidad con la canalización de datos para SparkJobDefinition
Enviado (Q2 2024)
Tipo de versión: disponibilidad general
Ahora puede ejecutar el código de Spark, incluidos los archivos JAR, directamente desde una actividad de canalización. Simplemente apunte al código de Spark y la canalización ejecutará el trabajo en el clúster de Spark en Fabric. Esta nueva actividad permite patrones de flujo de trabajo de datos interesantes que aprovechan la eficacia del motor spark de Fabric, al tiempo que incluye las funcionalidades de flujo de control y flujo de datos de Data Factory en la misma canalización que los trabajos de Spark.
Compatibilidad con la canalización de datos para Azure HDInsight
Enviado (Q2 2024)
Tipo de versión: disponibilidad general
HDInsight es el servicio PaaS de Azure para Hadoop que permite a los desarrolladores crear soluciones de macrodatos muy eficaces en la nube. La nueva actividad de canalización de HDI habilitará las actividades de trabajo de HDInsights dentro de las canalizaciones de datos de Data Factory similares a la funcationalidad existente que ha enhoyado durante años en las canalizaciones de ADF y Synapse. Ahora hemos incorporado esta funcionalidad directamente a canalizaciones de datos de Fabric.
Nuevos conectores para la actividad de copia
Enviado (Q2 2024)
Tipo de versión: versión preliminar pública
Se agregarán nuevos conectores para que actividad de copia permita al cliente ingerir desde los siguientes orígenes, a la vez que se aprovecha la canalización de datos: Oracle, MySQL, Azure AI Search, Azure Files, Dynamics AX, Google BigQuery.
Trabajo de Apache Airflow: compilación de canalizaciones de datos con tecnología de Apache Airflow
Enviado (Q2 2024)
Tipo de versión: versión preliminar pública
El trabajo de Apache Airflow (conocido anteriormente como flujos de trabajo de datos) se basa en Apache Airflow y ofrece un entorno de tiempo de ejecución integrado de Apache Airflow, lo que le permite crear, ejecutar y programar DAG de Python con facilidad.
Administración de identidades del origen de datos (SPN)
Enviado (Q2 2024)
Tipo de versión: disponibilidad general
Entidad de servicio: para acceder a los recursos protegidos por un inquilino de Azure AD, la entidad que requiere acceso debe representarse mediante una entidad de seguridad. Podrá conectarse a los orígenes de datos con la entidad de servicio.
Obtención de mejoras en la experiencia de datos(Examinar recursos de Azure)
Enviado (Q1 2024)
Tipo de versión: versión preliminar pública
Examinar los recursos de Azure proporciona una navegación sin problemas para examinar los recursos de Azure. Puede navegar fácilmente por las suscripciones de Azure y conectarse a los orígenes de datos a través de una interfaz de usuario intuitiva. Le ayuda a encontrar y conectarse rápidamente a los datos que necesita.
Compatibilidad con la puerta de enlace de datos local (OPDG) agregada a las canalizaciones de datos
Enviado (Q1 2024)
Tipo de versión: versión preliminar pública
Esta característica permite que las canalizaciones de datos usen puertas de enlace de datos de Fabric para acceder a los datos locales y detrás de una red virtual. Para los usuarios que usan entornos de ejecución de integración autohospedados (SHIR), podrán moverse a puertas de enlace de datos locales en Fabric.
Integración de Git de Data Factory para canalizaciones de datos
Enviado (Q1 2024)
Tipo de versión: versión preliminar pública
Puede conectarse al repositorio de Git para desarrollar canalizaciones de datos de forma colaborativa. La integración de canalizaciones de datos con la funcionalidad Administración del ciclo de vida de aplicaciones (ALM) de la plataforma Fabric permite el control de versiones, la bifurcación, las confirmaciones y las solicitudes de incorporación de cambios.
Mejoras en los destinos de salida en Dataflow Gen2 (esquema de consulta)
Enviado (Q1 2024)
Tipo de versión: versión preliminar pública
Estamos mejorando los destinos de salida en Dataflow Gen2 con las siguientes funcionalidades muy solicitadas:
- Capacidad de controlar los cambios en el esquema de consulta después de configurar un destino de salida.
- Configuración de destino predeterminada para acelerar la creación de flujos de datos.
Para más información, consulte Destinos de datos de Dataflow Gen2 y configuración administrada.
Compatibilidad con copia rápida en Dataflow Gen2
Enviado (Q1 2024)
Tipo de versión: versión preliminar pública
Estamos agregando compatibilidad con la ingesta de datos a gran escala directamente dentro de la experiencia de Dataflow Gen2, mediante la funcionalidad de la actividad de copia de canalizaciones. Esto admite orígenes como azure SQL Database, CSV y archivos Parquet en Azure Data Lake Storage y Blob Storage.
Esta mejora escala considerablemente la capacidad de procesamiento de datos de Dataflow Gen2, lo que proporciona funcionalidades elT a gran escala (extract-load-transform).
Cancelación de la compatibilidad con la actualización en Dataflow Gen2
Enviado (Q4 2023)
Tipo de versión: versión preliminar pública
Estamos agregando compatibilidad para cancelar las actualizaciones de Dataflow Gen2 en curso desde la vista de elementos del área de trabajo.