Streaming sur Azure Databricks
Vous pouvez utiliser Azure Databricks pour l’ingestion de données, le traitement, le Machine Learning et l’IA en quasi-temps réel pour le streaming des données.
Azure Databricks offre de nombreuses optimisations pour le streaming et le traitement incrémentiel, y compris les suivantes :
- Delta Live Tables fournit une syntaxe déclarative pour le traitement incrémental. Consultez l’article Qu’est-ce que Delta Live Tables ?.
- Le chargeur automatique simplifie l’ingestion incrémentielle à partir du stockage d’objets cloud. Consultez Qu’est-ce que Auto Loader ?.
- Unity Catalog ajoute la gouvernance des données aux charges de travail de diffusion en continu. Consultez Utilisation de Unity Catalog avec Structured Streaming.
Delta Lake fournit la couche de stockage de ces intégrations. Voir Lectures et écritures en diffusion en continu sur des tables Delta.
Pour découvrir la mise en service de modèles en temps réel, consultez Mise en service de modèles avec Azure Databricks.
-
Découvrez les principes de base du traitement en quasi-temps réel et incrémentiel avec Structured Streaming sur Azure Databricks.
-
Découvrez les concepts fondamentaux de la configuration des charges de travail incrémentielles et en quasi-temps réel avec Structured Streaming.
-
La gestion des informations d’état intermédiaire des requêtes de Structured Streaming avec état peut aider à éviter des problèmes inattendus de latence et de production.
Considérations relatives à la production
Cet article contient des recommandations pour configurer des charges de travail de traitement incrémental de production avec Structured Streaming sur Azure Databricks afin de répondre aux exigences de latence et de coût pour les applications en temps réel ou par lots.
-
Découvrez comment surveiller des applications de Structured Streaming sur Azure Databricks.
-
Découvrez comment tirer parti d’Unity Catalog conjointement avec Structured Streaming sur Azure Databricks.
Diffusion en continu avec Delta
Découvrez comment utiliser les tableaux Delta comme sources et récepteurs de streaming.
-
Consultez des exemples d’utilisation de la diffusion en continu de Spark avec Cassandra, Azure Synapse Analytics, les Notebooks Python et les blocs-notes Scala dans Azure Databricks.
Azure Databricks dispose de fonctionnalités spécifiques permettant d’utiliser des champs de données semi-structurés contenus dans des charges utiles de données Avro, JSON et de mémoire tampon de protocole. Pour plus d'informations, consultez les rubriques suivantes :
- Lire et écrire des données Avro en streaming
- Tampons de protocole de lecture et d’écriture
- Interroger des chaînes JSON
Ressources supplémentaires
Apache Spark fournit un Guide de programmation Structured Streaming qui contient plus d’informations sur Structured Streaming.
Pour obtenir des informations de référence sur Structured Streaming, Databricks recommande les références d’API Apache Spark suivantes :