Потоковая передача в Azure Databricks
Azure Databricks можно использовать для приема, обработки, обработки, машинного обучения и искусственного интеллекта для потоковой передачи данных.
Azure Databricks предлагает множество вариантов для потоковой и добавочной обработки. Для большинства потоковой или добавочной обработки данных или задач ETL Databricks рекомендует delta Live Tables. См. раздел "Что такое разностные динамические таблицы?".
Большинство добавочных и потоковых рабочих нагрузок в Azure Databricks работают на основе структурированной потоковой передачи, включая разностные динамические таблицы и автозагрузчик. См. статью об автозагрузчике.
Delta Lake и Структурированная потоковая передача тесно интегрируются с добавочной обработкой в Databricks lakehouse. См. потоковую передачу потоковой передачи и записи в разностной таблице.
Сведения о службе моделей в режиме реального времени см. в разделе "Модель" с помощью Azure Databricks.
Дополнительные сведения о создании решений потоковой передачи на платформе Azure Databricks см. на странице продукта потоковой передачи данных.
Azure Databricks имеет определенные функции для работы с полуструктурированных полей данных, содержащихся в avro, буферах протокола и полезных данных JSON. Дополнительные сведения см. на следующих ресурсах:
Что такое структурированная потоковая передача?
Структурированная потоковая передача Apache Spark — это механизм обработки практически в реальном времени, который обеспечивает комплексную отказоустойчивость с однократными гарантиями обработки с помощью знакомых API Spark. Структурированная потоковая передача позволяет выражать вычисления с данными потоковой передачи таким же образом, как для пакетных вычислений по статическим данным. Механизм структурированной потоковой передачи выполняет инкрементное вычисление и постоянно обновляет результат по мере поступления потоковых данных.
Если вы не знакомы со структурированной потоковой передачей, ознакомьтесь с первой структурированной рабочей нагрузкой потоковой передачи.
Сведения об использовании структурированной потоковой передачи с каталогом Unity см. в разделе "Использование каталога Unity с структурированной потоковой передачей".
Какие источники и приемники потоковой передачи поддерживает Azure Databricks?
Databricks рекомендует использовать автозагрузчик для приема поддерживаемых типов файлов из облачного хранилища объектов в Delta Lake. Для конвейеров ETL Databricks рекомендует использовать разностные динамические таблицы (в которых используются разностные таблицы и структурированная потоковая передача). Вы также можете настроить добавочные рабочие нагрузки ETL с потоковой передачей в таблицы Delta Lake и из них.
Помимо Delta Lake и автозагрузчика, структурированная потоковая передача может подключаться к службам сообщений, например Apache Kafka.
Вы также можете использовать foreachBatch для записи в произвольные приемники данных.
Дополнительные ресурсы
Apache Spark предоставляет руководство по программированию структурированной потоковой передачи, которое содержит дополнительные сведения о структурированной потоковой передаче.
Для получения справочных сведений о структурированной потоковой передаче Databricks рекомендует следующие ссылки на API Apache Spark: