Bildklassifizierung in Azure

Azure Blob Storage
Maschinelles Sehen in Azure
Azure Cosmos DB
Azure Event Grid
Azure-Funktionen

Lösungsmöglichkeiten

In diesem Artikel ist ein Lösungsvorschlag beschrieben. Ihr Cloudarchitekt kann diesen Leitfaden verwenden, um die Hauptkomponenten einer typischen Implementierung dieser Architektur zu visualisieren. Verwenden Sie diesen Artikel als Ausgangspunkt, um eine gut durchdachte Lösung zu entwerfen, die den spezifischen Anforderungen Ihrer Workload entspricht.

Durch die Verwendung von Azure-Diensten wie Maschinelles Sehen-API und Azure Functions müssen Unternehmen keine einzelnen Server mehr verwalten und können gleichzeitig ihre Kosten senken und von der Erfahrung profitieren, über die Microsoft im Bereich der Bildverarbeitung mit Azure KI Services verfügt. In dieser Lösungsidee geht es speziell um einen Anwendungsfall mit Bildverarbeitung. Sollten Sie andere KI-Anforderungen haben, ziehen Sie ggf. die Verwendung der vollständigen Suite von Azure KI Services in Betracht.

Aufbau

Diagramm einer Architektur für Aufgaben zur Bildklassifizierung.

Laden Sie eine Visio-Datei dieser Lösungsidee herunter.

Datenfluss

Dieses Szenario umfasst die Back-End-Komponenten einer webbasierten oder mobilen Anwendung. Die Daten durchlaufen das Szenario wie folgt:

  1. Das Hinzufügen neuer Dateien (Bilduploads) im Blobspeicher löst ein Ereignis in Azure Event Grid aus. Der Uploadprozess kann über das Web oder eine mobile Anwendung orchestriert werden. Alternativ können Bilder separat in den Azure Blob-Speicher hochgeladen werden.
  2. Event Grid sendet eine Benachrichtigung, die Azure-Funktionen auslöst.
  3. Azure Functions ruft die Azure KI Vision-API auf, um das neu hochgeladene Bild zu analysieren. Azure KI Vision greift über die Blob-URL, die von Azure Functions analysiert wird, auf das Bild zu.
  4. Azure Functions speichert die Antwort der Azure KI Vision-API persistent in Azure Cosmos DB. Diese Antwort umfasst die Ergebnisse der Analyse, zusammen mit den Bildmetadaten.
  5. Die Ergebnisse können im Web oder im mobilen Front-End genutzt und wiedergegeben werden. Beachten Sie, dass dieser Ansatz die Ergebnisse der Klassifizierung abruft, aber nicht das hochgeladene Bild.

Komponenten

  • Azure KI Vision-API ist Teil der Azure KI Services-Suite und dient zum Abrufen von Informationen zu den einzelnen Bildern.
  • Azure Functions stellt die Back-End-API für die Webanwendung bereit. Des Weiteren bietet diese Plattform eine Ereignisverarbeitung für hochgeladene Bilder.
  • Azure Event Grid löst ein Ereignis aus, wenn ein neues Bild in Blob Storage hochgeladen wird. Das Bild wird dann mit Azure Functions verarbeitet.
  • Azure Blob Storage speichert alle in die Webanwendung hochgeladenen Bilddateien sowie alle statischen Dateien, die von der Webanwendung genutzt werden.
  • Azure Cosmos DB speichert Metadaten zu den einzelnen hochgeladenen Bildern sowie die Verarbeitungsergebnisse der Maschinelles Sehen-API.

Alternativen

  • Azure OpenAI GPT-4 Turbo mit Vision (Vorschau). GPT-4 Turbo mit Vision ist ein multimodales Modell, das Bilder analysieren und Textantworten auf Fragen zu ihnen liefern kann.
  • Custom Vision Service. Die Maschinelles Sehen-API gibt eine Reihe taxonomiebasierter Kategorien zurück. Falls Sie Informationen verarbeiten müssen, die nicht von der Maschinelles Sehen-API zurückgegeben werden, ziehen Sie ggf. die Verwendung von Custom Vision Service in Betracht. Dieser Dienst ermöglicht die Erstellung benutzerdefinierter Bildklassifizierungen.
  • Azure KI-Suche (ehemals Azure Search). Wenn in Ihrem Anwendungsfall die Metadaten abgefragt werden müssen, um Bilder zu finden, die bestimmten Kriterien entsprechen, empfiehlt sich ggf. die Verwendung von Azure KI-Suche. Azure KI-Suche integriert diesen Workflow nahtlos.
  • Logic Apps. Wenn Sie nicht in Echtzeit auf zu einem Blob hinzugefügte Dateien reagieren müssen, können Sie die Verwendung von Logic Apps in Betracht ziehen. Eine Logik-App zur Prüfung, ob eine Datei hinzugefügt wurde, kann durch den Serientrigger oder den Trigger „Gleitendes Fenster“ gestartet werden.
  • Wenn Sie Bilder in Dokumente eingebettet haben, verwenden Sie Azure KI Dokument Intelligenz, um diese Bilder zu finden. Mit diesen Informationen können Sie weitere Aufgaben für maschinelles Sehen für die eingebetteten Bilder extrahieren und ausführen. Verwenden Sie Dokument Intelligenz, um Daten zu diesen eingebetteten Bildern zu sammeln, z. B. Seitenzahl oder Beschriftungstext. Diese können zusammen mit den anderen Metadaten gespeichert werden, die über die Maschinelles Sehen-API empfangen werden.

Szenariodetails

Dieses Szenario richtet sich an Unternehmen, die eine Bildverarbeitung benötigen.

Mögliche Anwendungsbereiche wären etwa die Klassifizierung von Bildern für eine Modewebsite, die Analyse von Text und Bildern für Versicherungsansprüche oder die Interpretation von Telemetriedaten aus Screenshots von Spielen. In der Vergangenheit mussten sich Unternehmen in der Regel ausführlich mit Machine Learning-Modellen vertraut machen, die Modelle trainieren und die Bilder schließlich durch ihren benutzerdefinierten Prozess schleusen, um die Daten aus den Bildern zu extrahieren.

Mögliche Anwendungsfälle

Diese Lösung eignet sich ideal für die Einzelhandels-, Spiel-, Finanz- und Versicherungsbranchen. Zu den weiteren relevanten Anwendungsfällen zählen:

  • Klassifizieren von Bildern auf einer Modewebsite Bildklassifizierung kann von Verkäufern beim Hochladen von Bildern von Produkten auf die Plattform zum Verkauf verwendet werden. Anschließend können sie das damit verbundene manuelle Tagging automatisieren. Die Kunden können auch über den visuellen Eindruck der Produkte suchen.

  • Klassifizieren von Telemetriedaten aus Screenshots von Spielen Die Klassifizierung von Videospielen aus Screenshots entwickelt sich zu einem relevanten Problem in den sozialen Medien, gekoppelt mit maschinellem Sehen. Wenn Twitch-Streamer beispielsweise unterschiedliche Spiele in Folge spielen, können sie manuell das Aktualisieren ihrer Streaminformationen überspringen. Die fehlende Aktualisieren von Streaminformationen könnte zu einer Fehlklassifizierung von Datenströmen in Benutzersuchen und somit dazu führen, dass potenzielle Zuschauer sowohl für die Inhaltsersteller als auch für die Streamingplattformen verloren gehen. Während der Einführung neuartiger Spiele könnte eine benutzerdefinierte Modellroute hilfreich sein, um die Funktion zum Erkennen von neuartigen Bildern aus diesen Spielen einzuführen.

  • Klassifizieren von Bildern für Versicherungsansprüche. Die Bildklassifizierung kann dazu beitragen, die Zeit und die Kosten der Anspruchsverarbeitung und -versicherung zu reduzieren. Sie könnte dabei helfen, Schäden durch Naturkatastrophen und Fahrzeugschäden zu analysieren und Wohn- und Gewerbeimmobilien zu identifizieren.

Nächste Schritte

Produktdokumentation

Einen geführten Lernpfad finden Sie unter:

KI-Anreicherung mit Bild- und Textverarbeitung verwenden