Streaming en Azure Databricks

Artículo
10/14/2024

Puede usar Azure Databricks para la ingesta de datos, el procesamiento, el aprendizaje automático y la inteligencia artificial casi en tiempo real para los datos de streaming.

Azure Databricks ofrece numerosas optimizaciones para el streaming y el procesamiento incremental, incluidas las siguientes:

Delta Live Tables proporciona una sintaxis declarativa para el procesamiento incremental. Consulte ¿Qué es Delta Live Tables?
Auto Loader simplifica la ingesta incremental desde el almacenamiento de objetos en la nube. Consulte ¿Qué es Auto Loader?.
Unity Catalog agrega gobernanza de datos a cargas de trabajo de streaming. Consulta Uso de Unity Catalog con Structured Streaming.

Delta Lake proporciona la capa de almacenamiento para estas integraciones. Consulte Lecturas y escrituras en streaming de tablas delta.

Para obtener servicios de modelos en tiempo real, consulte Servicio de modelos con Azure Databricks.

Tutorial

Conozca los conceptos básicos del procesamiento casi en tiempo real e incremental con el flujo estructurado de Azure Databricks.
Conceptos

Obtenga información sobre los conceptos básicos para configurar cargas de trabajo incrementales y casi en tiempo real con Structured Streaming.
Streaming con estado

Administrar la información de estado intermedio de las consultas de Structured Streaming con estado puede ayudarle a evitar problemas inesperados de latencia y producción.
Consideraciones de producción

En este artículo se ofrecen recomendaciones para configurar cargas de trabajo de procesamiento incremental de producción con Structured Streaming en Azure Databricks para cumplir los requisitos de latencia y costes de las aplicaciones en tiempo real o por lotes.
Supervisión de secuencias

Obtenga información sobre cómo supervisar aplicaciones de Structured Streaming en Azure Databricks.
Integración de Unity Catalog

Obtenga información sobre cómo sacar provecho de Unity Catalog junto con Structured Streaming en Azure Databricks.
Streaming con Delta

Descubra cómo usar tablas de Delta Lake como orígenes y receptores de streaming.
Ejemplos

Consulte ejemplos de uso de Spark Structured Streaming con Cassandra, Azure Synapse Analytics, cuadernos de Python y cuadernos de Scala en Azure Databricks.

Azure Databricks dispone de características específicas para trabajar con los campos de datos semiestructurados que contienen las cargas de datos de Avro, búfers de protocolo y JSON. Para obtener más información, consulte:

Recursos adicionales

Apache Spark proporciona una guía de programación de streaming estructurado que tiene más información sobre Structured Streaming.

Para obtener información de referencia sobre Structured Streaming, Databricks recomienda las siguientes referencias de la API de Apache Spark:

Compartir a través de

Streaming en Azure Databricks

Recursos adicionales

Comentarios

Recursos adicionales