Эталонное решение для приложений, работающих с изображениями

Узнайте, как сделать вывод распределенной модели изображений из записных книжек эталонного решения с помощью pandas UDF, PyTorch и TensorFlow в общей конфигурации, общей многими приложениями изображений реального мира. В этой конфигурации предполагается, что в хранилище объектов хранится множество изображений и при необходимости постоянно поступающие новые образы.

Рабочий процесс для вывода модели изображений

Предположим, у вас есть несколько обученных моделей глубокого обучения (DL) для классификации образов и обнаружения объектов, например, MobileNetV2 для обнаружения людей на фотографиях, отправленных пользователем, для защиты конфиденциальности и применения этих моделей DL к сохраненным образам.

Вы можете заново обучить модели и обновить ранее вычисленные прогнозы. Однако загрузка большого количества изображений и применение моделей глубокого обучения требует больших объемов операций ввода-вывода и вычислений. К счастью, рабочая нагрузка вывода имеет предельный параллелизм, и теоретически ее можно легко распределить. В этом руководстве описывается практическое решение, которое содержит два основных этапа:

  1. Извлечение, преобразование и загрузка образов в разностную таблицу с помощью автозагрузчика
  2. Выполнение распределенного вывода с помощью UDF pandas

Извлечение, преобразование и загрузка образов в разностную таблицу с помощью автозагрузчика

Для приложений с изображениями, включая задачи обучения и вывода, Databricks рекомендует проводить извлечение, преобразование и загрузку изображений в разностную таблицу с Автозагрузчиком. Автозагрузчик помогает управлять данными и автоматически обрабатывает постоянно поступающие новые образы.

Извлечение, преобразование и загрузка набора данных образа в записную книжку разностной таблицы

Получить записную книжку

Выполнение распределенного вывода с помощью UDF pandas

В следующих записных книжках используются PyTorch и TensorFlow tf.Keras, чтобы продемонстрировать эталонное решение.

Распределенный вывод с помощью записной книжки Pytorch и UDF pandas

Получить записную книжку

Распределенный вывод с помощью записной книжки Keras и UDF pandas

Получить записную книжку

Ограничения: размер файла изображения

Для больших файлов изображений (средний размер образа больше 100 МБ) Databricks рекомендует использовать разностную таблицу только для управления метаданными (список имен файлов) и загрузки изображений из хранилища объектов с использованием их путей при необходимости.