Streaming en Azure Databricks
Puede usar Azure Databricks para la ingesta de datos, el procesamiento, el aprendizaje automático y la inteligencia artificial casi en tiempo real para los datos de streaming.
Azure Databricks ofrece numerosas optimizaciones para el streaming y el procesamiento incremental, incluidas las siguientes:
- Delta Live Tables proporciona una sintaxis declarativa para el procesamiento incremental. Consulte ¿Qué es Delta Live Tables?
- Auto Loader simplifica la ingesta incremental desde el almacenamiento de objetos en la nube. Consulte ¿Qué es Auto Loader?.
- Unity Catalog agrega gobernanza de datos a cargas de trabajo de streaming. Consulta Uso de Unity Catalog con Structured Streaming.
Delta Lake proporciona la capa de almacenamiento para estas integraciones. Consulte Lecturas y escrituras en streaming de tablas delta.
Para obtener servicios de modelos en tiempo real, consulte Servicio de modelos con Azure Databricks.
-
Conozca los conceptos básicos del procesamiento casi en tiempo real e incremental con el flujo estructurado de Azure Databricks.
-
Obtenga información sobre los conceptos básicos para configurar cargas de trabajo incrementales y casi en tiempo real con Structured Streaming.
-
Administrar la información de estado intermedio de las consultas de Structured Streaming con estado puede ayudarle a evitar problemas inesperados de latencia y producción.
-
En este artículo se ofrecen recomendaciones para configurar cargas de trabajo de procesamiento incremental de producción con Structured Streaming en Azure Databricks para cumplir los requisitos de latencia y costes de las aplicaciones en tiempo real o por lotes.
-
Obtenga información sobre cómo supervisar aplicaciones de Structured Streaming en Azure Databricks.
-
Obtenga información sobre cómo sacar provecho de Unity Catalog junto con Structured Streaming en Azure Databricks.
-
Descubra cómo usar tablas de Delta Lake como orígenes y receptores de streaming.
-
Consulte ejemplos de uso de Spark Structured Streaming con Cassandra, Azure Synapse Analytics, cuadernos de Python y cuadernos de Scala en Azure Databricks.
Azure Databricks dispone de características específicas para trabajar con los campos de datos semiestructurados que contienen las cargas de datos de Avro, búfers de protocolo y JSON. Para obtener más información, consulte:
- Lectura y escritura de datos de Avro en streaming
- Búferes de protocolo de lectura y escritura
- Consulta de cadenas JSON
Recursos adicionales
Apache Spark proporciona una guía de programación de streaming estructurado que tiene más información sobre Structured Streaming.
Para obtener información de referencia sobre Structured Streaming, Databricks recomienda las siguientes referencias de la API de Apache Spark: