Rozwiązanie referencyjne dla aplikacji obrazów

Dowiedz się, jak wykonywać wnioskowanie modelu obrazów rozproszonych z notesów rozwiązań referencyjnych przy użyciu funkcji pandas UDF, PyTorch i TensorFlow w wspólnej konfiguracji współużytkowanej przez wiele rzeczywistych aplikacji obrazów. W tej konfiguracji przyjęto założenie, że wiele obrazów jest przechowywanych w magazynie obiektów i opcjonalnie stale przybywa nowych obrazów.

Przepływ pracy wnioskowania modelu obrazów

Załóżmy, że masz kilka wytrenowanych modeli uczenia głębokiego na potrzeby klasyfikacji obrazów i wykrywania obiektów — na przykład MobileNetV2 do wykrywania obiektów ludzkich na zdjęciach przekazanych przez użytkownika w celu ochrony prywatności — i chcesz zastosować te modele DL do przechowywanych obrazów.

Możesz ponownie trenować modele i aktualizować wcześniej obliczone przewidywania. Jednak zarówno operacje we/wy, jak i duże obciążenie obliczeniowe do ładowania wielu obrazów i stosowanie modeli DL. Na szczęście obciążenie wnioskowania jest kłopotliwie równoległe i teoretycznie można je łatwo dystrybuować. Ten przewodnik przeprowadzi Cię przez praktyczne rozwiązanie, które zawiera dwa główne etapy:

  1. Obrazy ETL w tabeli delty przy użyciu modułu ładującego automatycznego
  2. Wykonywanie wnioskowania rozproszonego przy użyciu funkcji zdefiniowanej przez użytkownika biblioteki pandas

Obrazy ETL w tabeli delty przy użyciu modułu ładującego automatycznego

W przypadku aplikacji obrazów, w tym zadań trenowania i wnioskowania, usługa Databricks zaleca tworzenie obrazów ETL w tabeli delty za pomocą modułu ładującego automatycznego. Moduł automatycznego ładowania ułatwia zarządzanie danymi i automatycznie obsługuje ciągłe dostarczanie nowych obrazów.

Zestaw danych obrazów ETL w notesie tabeli delty

Pobierz notes

Wykonywanie wnioskowania rozproszonego przy użyciu funkcji zdefiniowanej przez użytkownika biblioteki pandas

W poniższych notesach używane są narzędzia PyTorch i TensorFlow tf. Interfejs Keras do zademonstrowania rozwiązania referencyjnego.

Wnioskowanie rozproszone za pośrednictwem notesu Pytorch i biblioteki pandas UDF

Pobierz notes

Wnioskowanie rozproszone za pośrednictwem notesu protokołu Keras i biblioteki pandas UDF

Pobierz notes

Ograniczenia: rozmiary plików obrazów

W przypadku dużych plików obrazów (średni rozmiar obrazu większy niż 100 MB) usługa Databricks zaleca używanie tabeli delty tylko do zarządzania metadanymi (listy nazw plików) i ładowania obrazów z magazynu obiektów przy użyciu ich ścieżek w razie potrzeby.