Rozwiązanie referencyjne dla aplikacji obrazów
Dowiedz się, jak wykonywać wnioskowanie modelu obrazów rozproszonych z notesów rozwiązań referencyjnych przy użyciu funkcji pandas UDF, PyTorch i TensorFlow w wspólnej konfiguracji współużytkowanej przez wiele rzeczywistych aplikacji obrazów. W tej konfiguracji przyjęto założenie, że wiele obrazów jest przechowywanych w magazynie obiektów i opcjonalnie stale przybywa nowych obrazów.
Przepływ pracy wnioskowania modelu obrazów
Załóżmy, że masz kilka wytrenowanych modeli uczenia głębokiego na potrzeby klasyfikacji obrazów i wykrywania obiektów — na przykład MobileNetV2 do wykrywania obiektów ludzkich na zdjęciach przekazanych przez użytkownika w celu ochrony prywatności — i chcesz zastosować te modele DL do przechowywanych obrazów.
Możesz ponownie trenować modele i aktualizować wcześniej obliczone przewidywania. Jednak zarówno operacje we/wy, jak i duże obciążenie obliczeniowe do ładowania wielu obrazów i stosowanie modeli DL. Na szczęście obciążenie wnioskowania jest kłopotliwie równoległe i teoretycznie można je łatwo dystrybuować. Ten przewodnik przeprowadzi Cię przez praktyczne rozwiązanie, które zawiera dwa główne etapy:
- Obrazy ETL w tabeli delty przy użyciu modułu ładującego automatycznego
- Wykonywanie wnioskowania rozproszonego przy użyciu funkcji zdefiniowanej przez użytkownika biblioteki pandas
Obrazy ETL w tabeli delty przy użyciu modułu ładującego automatycznego
W przypadku aplikacji obrazów, w tym zadań trenowania i wnioskowania, usługa Databricks zaleca tworzenie obrazów ETL w tabeli delty za pomocą modułu ładującego automatycznego. Moduł automatycznego ładowania ułatwia zarządzanie danymi i automatycznie obsługuje ciągłe dostarczanie nowych obrazów.
Zestaw danych obrazów ETL w notesie tabeli delty
Wykonywanie wnioskowania rozproszonego przy użyciu funkcji zdefiniowanej przez użytkownika biblioteki pandas
W poniższych notesach używane są narzędzia PyTorch i TensorFlow tf. Interfejs Keras do zademonstrowania rozwiązania referencyjnego.
Wnioskowanie rozproszone za pośrednictwem notesu Pytorch i biblioteki pandas UDF
Wnioskowanie rozproszone za pośrednictwem notesu protokołu Keras i biblioteki pandas UDF
Ograniczenia: rozmiary plików obrazów
W przypadku dużych plików obrazów (średni rozmiar obrazu większy niż 100 MB) usługa Databricks zaleca używanie tabeli delty tylko do zarządzania metadanymi (listy nazw plików) i ładowania obrazów z magazynu obiektów przy użyciu ich ścieżek w razie potrzeby.