Streaming sur Azure Databricks

Vous pouvez utiliser Azure Databricks pour l’ingestion de données, le traitement, le Machine Learning et l’IA en quasi-temps réel pour le streaming des données.

Azure Databricks offre de nombreuses optimisations pour le streaming et le traitement incrémentiel, y compris les suivantes :

Delta Lake fournit la couche de stockage de ces intégrations. Voir Lectures et écritures en diffusion en continu sur des tables Delta.

Pour découvrir la mise en service de modèles en temps réel, consultez Mise en service de modèles avec Azure Databricks.

  • Didacticiel

    Découvrez les principes de base du traitement en quasi-temps réel et incrémentiel avec Structured Streaming sur Azure Databricks.

  • Concepts

    Découvrez les concepts fondamentaux de la configuration des charges de travail incrémentielles et en quasi-temps réel avec Structured Streaming.

  • Streaming avec état

    La gestion des informations d’état intermédiaire des requêtes de Structured Streaming avec état peut aider à éviter des problèmes inattendus de latence et de production.

  • Considérations relatives à la production

    Cet article contient des recommandations pour configurer des charges de travail de traitement incrémental de production avec Structured Streaming sur Azure Databricks afin de répondre aux exigences de latence et de coût pour les applications en temps réel ou par lots.

  • Surveiller les flux

    Découvrez comment surveiller des applications de Structured Streaming sur Azure Databricks.

  • Intégration d’Unity Catalog

    Découvrez comment tirer parti d’Unity Catalog conjointement avec Structured Streaming sur Azure Databricks.

  • Diffusion en continu avec Delta

    Découvrez comment utiliser les tableaux Delta comme sources et récepteurs de streaming.

  • Exemples

    Consultez des exemples d’utilisation de la diffusion en continu de Spark avec Cassandra, Azure Synapse Analytics, les Notebooks Python et les blocs-notes Scala dans Azure Databricks.

Azure Databricks dispose de fonctionnalités spécifiques permettant d’utiliser des champs de données semi-structurés contenus dans des charges utiles de données Avro, JSON et de mémoire tampon de protocole. Pour plus d'informations, consultez les rubriques suivantes :

Ressources supplémentaires

Apache Spark fournit un Guide de programmation Structured Streaming qui contient plus d’informations sur Structured Streaming.

Pour obtenir des informations de référence sur Structured Streaming, Databricks recommande les références d’API Apache Spark suivantes :