¿Qué es Ingeniería de datos en Microsoft Fabric?

Ingeniería de datos en Microsoft Fabric permite a los usuarios diseñar, compilar y mantener infraestructuras y sistemas que permiten a sus organizaciones recopilar, almacenar, procesar y analizar grandes volúmenes de datos.

Microsoft Fabric proporciona diversas funcionalidades de ingeniería de datos para asegurarse de que los datos sean fácilmente accesibles, de alta calidad y estén bien organizados. Desde la página principal de Ingeniería de datos, puede:

  • Crear y administrar los datos mediante un almacén de lago

  • Diseñar canalizaciones para copiar datos en el almacén de lago

  • Usar definiciones de trabajos de Spark para enviar un trabajo por lotes o streaming a un clúster de Spark

  • Usar cuadernos para escribir código para la ingesta, preparación y transformación de datos

    Captura de pantalla en la que se muestran objetos de Ingeniería de datos.

Lakehouse

Los almacenes de lago son arquitecturas de datos que permiten a las organizaciones almacenar y administrar datos estructurados y no estructurados en una sola ubicación, mediante diversas herramientas y marcos para procesar y analizar esos datos. Estas herramientas y marcos pueden incluir consultas y análisis basados en SQL, así como aprendizaje automático y otras técnicas de análisis avanzadas.

Definición de trabajo de Apache Spark

Las definiciones de trabajos de Spark son instrucciones que definen cómo ejecutar un trabajo en un clúster de Spark. Incluyen información como los orígenes de datos de entrada y salida, las transformaciones y los valores de configuración de la aplicación Spark. La definición de trabajo de Spark permite enviar un trabajo por lotes o streaming al clúster de Spark, aplicar una lógica de transformación diferente a los datos hospedados en el lakehouse, además de muchos otros aspectos.

Notebook

Los cuadernos son un entorno de procesamiento interactivo que permite a los usuarios crear y compartir documentos que contienen código activo, ecuaciones, visualizaciones y texto narrativo. Permiten a los usuarios escribir y ejecutar código en varios lenguajes de programación, como Python, R y Scala. Puede usar cuadernos para la ingesta de datos, preparación, análisis y otras tareas relacionadas con datos.

Canalización de datos

Las canalizaciones de datos son una serie de pasos que se usan para recopilar, procesar y transformar datos de un forma sin procesar a un formato que se pueda usar para el análisis y la toma de decisiones. Son un componente esencial de la ingeniería de datos, ya que proporcionan una manera de mover datos del origen al destino de forma confiable, escalable y eficaz.

Puede usar Ingeniería de datos en Microsoft Fabric de forma gratuita al suscribirse a la prueba de Fabric. También puede comprar una capacidad de Microsoft Fabric o una capacidad reservada de Fabric.

Introducción a la ingeniería de datos: