¿Qué son los elementos delta en Azure Databricks?

Este artículo es una introducción a las tecnologías con la marca colectiva Delta en Azure Databricks. Delta hace referencia a las tecnologías relacionadas con o en el proyecto de código abierto Delta Lake.

Este artículo responde:

  • ¿Qué son las tecnologías delta en Azure Databricks?
  • ¿Qué hacen? ¿O para qué se usan?
  • ¿Cómo se relacionan y se diferencian entre sí?

¿Para qué se usan los elementos delta?

Delta es un término introducido con Delta Lake, la base para almacenar datos y tablas en el almacén de lago de Databricks. Delta Lake se concibió como un sistema unificado de administración de datos para controlar macrodatos transaccionales en tiempo real y por lotes, mediante la extensión de los archivos de datos parquet con un registro de transacciones basado en archivos para transacciones ACID y el control de metadatos escalables.

Delta Lake: administración de datos del sistema operativo para el almacén de lago

Delta Lake es una capa de almacenamiento de código abierto que proporciona confiabilidad a los lagos de datos agregando una capa de almacenamiento transaccional a los datos almacenados en la nube (en AWS S3, Azure Storage y GCS). Permite transacciones ACID, control de versiones de datos y funcionalidades de reversión. Permite controlar los datos por lotes y de streaming de forma unificada.

Las tablas delta se basan en esta capa de almacenamiento y proporcionan una abstracción de tabla, lo que facilita el trabajo con datos estructurados a gran escala mediante SQL y la API de DataFrame.

Tablas delta: la arquitectura de tabla de datos predeterminada

La tabla delta es el formato de tabla de datos predeterminado en Azure Databricks y es una característica del marco de datos de código abierto Delta Lake. Las tablas delta se usan normalmente para lagos de datos, donde los datos se ingieren a través de streaming o por grandes lotes.

Vea:

Delta Live Tables: canalizaciones de datos

Delta Live Tables administra el flujo de datos entre muchas tablas delta, lo que simplifica el trabajo de los ingenieros de datos en el desarrollo y la administración de ETL. La canalización es la unidad principal de ejecución de Delta Live Tables. Delta Live Tables ofrece desarrollo declarativo de canalizaciones, confiabilidad de datos mejorada y operaciones de producción a escala de nube. Los usuarios pueden realizar operaciones por lotes y de streaming en la misma tabla y los datos están disponibles inmediatamente para realizar consultas. Defina las transformaciones que se realizarán en los datos y Delta Live Tables administrará la orquestación de tareas, la administración de clústeres, la supervisión, la calidad de los datos y el control de errores. El escalado automático mejorado de Delta Live Tables puede controlar las cargas de trabajo de streaming que son espiados e imprevisibles.

Consulte el tutorial de Delta Live Tables.

Tablas delta frente a Delta Live Tables

La tabla delta es una manera de almacenar datos en tablas, mientras que Delta Live Tables permite describir cómo fluyen los datos entre estas tablas de manera declarativa. Delta Live Tables es un marco declarativo que administra muchas tablas delta, al crearlas y mantenerlas actualizadas. En resumen, las tablas delta son una arquitectura de tabla de datos, mientras que Delta Live Tables es un marco de canalización de datos.

Delta: ¿de código abierto o de propiedad?

Una fortaleza de la plataforma de Azure Databricks es que no restringe a los clientes a herramientas propietarias: gran parte de la tecnología se basa en proyectos de código abierto, a los que Azure Databricks contribuye.

Los proyectos de Delta OSS son ejemplos:

Delta Live Tables es un marco de propiedad de Azure Databricks.

¿Cuáles son los otros elementos delta en Azure Databricks?

A continuación, se muestran descripciones de otras características que incluyen delta en su nombre.

Delta Sharing

Un estándar abierto para el uso compartido seguro de datos, Delta Sharing permite el uso compartido de datos entre organizaciones independientemente de la plataforma de proceso.

Motor delta

Optimizador de consultas para macrodatos que usa la tecnología de código abierto Delta Lake incluida en Databricks. El motor delta optimiza el rendimiento de las operaciones de Spark SQL, Databricks SQL y DataFrame mediante la inserción de cálculos en los datos.

Registro de transacciones de Delta Lake (o DeltaLogs)

Una única fuente de verdad que realiza un seguimiento de todos los cambios que los usuarios realizan en la tabla y el mecanismo a través del que Delta Lake garantiza la atomicidad. Consulte el protocolo de registro de transacciones delta en GitHub.

El registro de transacciones es clave para comprender Delta Lake, ya que es el subproceso común que se ejecuta a través de muchas de sus características más importantes:

  • Transacciones ACID
  • Control escalable de metadatos
  • Viaje en el tiempo
  • Y muchos más.