Эталонное решение для приложений, работающих с изображениями
Узнайте, как сделать вывод распределенной модели изображений из записных книжек эталонного решения с помощью pandas UDF, PyTorch и TensorFlow в общей конфигурации, общей многими приложениями изображений реального мира. В этой конфигурации предполагается, что в хранилище объектов хранится множество изображений и при необходимости постоянно поступающие новые образы.
Рабочий процесс для вывода модели изображений
Предположим, у вас есть несколько обученных моделей глубокого обучения (DL) для классификации образов и обнаружения объектов, например, MobileNetV2 для обнаружения людей на фотографиях, отправленных пользователем, для защиты конфиденциальности и применения этих моделей DL к сохраненным образам.
Вы можете заново обучить модели и обновить ранее вычисленные прогнозы. Однако загрузка большого количества изображений и применение моделей глубокого обучения требует больших объемов операций ввода-вывода и вычислений. К счастью, рабочая нагрузка вывода имеет предельный параллелизм, и теоретически ее можно легко распределить. В этом руководстве описывается практическое решение, которое содержит два основных этапа:
- Извлечение, преобразование и загрузка образов в разностную таблицу с помощью автозагрузчика
- Выполнение распределенного вывода с помощью UDF pandas
Извлечение, преобразование и загрузка образов в разностную таблицу с помощью автозагрузчика
Для приложений с изображениями, включая задачи обучения и вывода, Databricks рекомендует проводить извлечение, преобразование и загрузку изображений в разностную таблицу с Автозагрузчиком. Автозагрузчик помогает управлять данными и автоматически обрабатывает постоянно поступающие новые образы.
Извлечение, преобразование и загрузка набора данных образа в записную книжку разностной таблицы
Выполнение распределенного вывода с помощью UDF pandas
В следующих записных книжках используются PyTorch и TensorFlow tf.Keras, чтобы продемонстрировать эталонное решение.
Распределенный вывод с помощью записной книжки Pytorch и UDF pandas
Распределенный вывод с помощью записной книжки Keras и UDF pandas
Ограничения: размер файла изображения
Для больших файлов изображений (средний размер образа больше 100 МБ) Databricks рекомендует использовать разностную таблицу только для управления метаданными (список имен файлов) и загрузки изображений из хранилища объектов с использованием их путей при необходимости.