KI-Anreicherung mit Bild- und Textverarbeitung verwenden

Azure App Service
Azure Blob Storage
Azure KI Search
Azure-Funktionen

Lösungsmöglichkeiten

In diesem Artikel ist ein Lösungsvorschlag beschrieben. Ihr Cloudarchitekt kann diesen Leitfaden verwenden, um die Hauptkomponenten einer typischen Implementierung dieser Architektur zu visualisieren. Verwenden Sie diesen Artikel als Ausgangspunkt, um eine gut durchdachte Lösung zu entwerfen, die den spezifischen Anforderungen Ihrer Workload entspricht.

In diesem Artikel wird beschrieben, wie Sie die Bildverarbeitung, die linguistische Datenverarbeitung und benutzerdefinierte Skills zum Erfassen von domänenspezifischen Daten verwenden. Mit diesen Daten können Sie Text- und Bilddokumente anreichern. Verwenden Sie Azure KI-Suche mit KI-Anreicherung, um relevante Inhalte im großen Stil zu identifizieren und zu erkunden. Diese Lösung verwendet KI-Anreicherung, um aus dem ursprünglichen komplexen, unstrukturierten Dataset der JFK Assassination Records (Akten zu den Aufzeichnungen zum JFK-Attentat) eine Bedeutung zu extrahieren.

Aufbau

Diagramm, das die Azure KI-Suche-Architektur zur Umwandlung unstrukturierter in strukturierte Daten zeigt.

Laden Sie eine Visio-Datei dieser Architektur herunter.

Datenfluss

Der folgende Dataflow entspricht dem vorherigen Diagramm. Der Dataflow beschreibt, wie das unstrukturierte JFK Files-Dataset die Skills-Pipeline der KI-Suche durchläuft, um strukturierte und indizierbare Daten zu erzeugen.

  1. Unstrukturierte Daten in Azure Blob Storage, wie Dokumente und Bilder, werden in KI-Suche erfasst.

  2. Um den Indizierungsprozess einzuleiten, werden bei der Dokumententschlüsselung Bilder und Text aus den Daten extrahiert und inhaltlich angereichert. Die Anreicherungsschritte, die in diesem Prozess erfolgen, hängen von den Daten und der Art der von Ihnen ausgewählten Skills ab.

  3. Integrierte Skills, die auf den APIs für Azure KI Vision und Azure KI Language basieren, stellen KI-Anreicherungen wie optische Zeichenerkennung (OCR), Bildanalyse, Textübersetzung, Entitätserkennung und Volltextsuche bereit.

  4. Benutzerdefinierte Skills unterstützen Szenarien, die komplexere KI-Modelle oder Dienste erfordern. Beispiele sind Azure KI Dokument Intelligenz, Azure Machine Learning-Modelle und Azure-Funktionen.

  5. Nach Abschluss des Anreicherungsprozesses speichert der Indexer die angereicherten und indizierten Dokumente in einem Suchindex. Die Volltextsuche und andere Abfrageformulare können diesen Index verwenden.

  6. Die angereicherten Dokumente können auch in einen Wissensspeicher projiziert werden, den nachgeschaltete Apps wie Knowledge Mining oder Data Science verwenden können.

  7. Abfragen greifen auf die angereicherten Inhalte im Suchindex zu. Der Index unterstützt benutzerdefinierte Analysetools, Fuzzysuchabfragen, Filter und ein Bewertungsprofil zur Abstimmung der Suchrelevanz.

  8. Anwendungen die eine Verbindung zu Blob Storage oder zu Azure Table Storage herstellen, können auf den Wissensspeicher zugreifen.

Komponenten

Diese Lösung verwendet die folgenden Azure-Komponenten.

KI Suche indiziert den Inhalt und unterstützt die Benutzerfreundlichkeit in dieser Lösung. Sie können KI-Suche verwenden, um vordefinierte KI-Skills auf Inhalte anzuwenden. Und Sie können den Erweiterbarkeitsmechanismus verwenden, um benutzerdefinierte Skills hinzuzufügen, die bestimmte Anreicherungstransformationen bereitstellen.

Azure KI Vision

Vision verwendet die Texterkennung, um Textinformationen aus Bildern zu extrahieren und zu erkennen. Die Lese-API verwendet die neuesten OCR-Erkennungsmodelle und ist für große, textintensive Dokumente und umfangreiche Bilder optimiert.

Die Legacy-OCR-API ist nicht für große Dokumente optimiert, unterstützt jedoch weitere Sprachen. Die Genauigkeit der OCR-Ergebnisse kann je nach Qualität des Scans und des Bilds variieren. Diese Lösung nutzt OCR, um Daten im hOCR-Format zu erstellen.

Sprache

Language verwendet Textanalysefähigkeiten wie Erkennung benannter Entitäten und Schlüsselbegriffserkennung, um Textinformationen aus unstrukturierten Dokumenten zu extrahieren.

Azure Storage

Bei Blob Storage handelt es sich um einen REST-basierten Objektspeicher für Daten, auf den Sie von überall auf der Welt über HTTPS zugreifen können. Sie können Blob Storage verwenden, um Daten öffentlich auf der ganzen Welt zur Verfügung zu stellen oder um Anwendungsdaten privat zu speichern. Blob Storage eignet sich ideal für große Mengen unstrukturierter Daten, z. B. Text oder Grafiken.

Table Storage speichert hochverfügbare, skalierbare, strukturierte und teilweise strukturierte NoSQL-Daten in der Cloud.

Azure-Funktionen

Functions ist ein serverloser Computedienst, mit dem Sie kleine Teile von ereignisgesteuertem Code ausführen können, ohne eine explizite Infrastruktur bereitstellen oder verwalten zu müssen. In dieser Lösung wird eine Functions-Methode verwendet, um die Liste der Central Intelligence Agency-(CIA-)Kryptonyme auf die Akten zum JFK-Attentat als benutzerdefinierten Skill anzuwenden.

Azure App Service

Diese Lösung erstellt auch eine eigenständige Web-App in Azure App Service, um den Index zu testen, zu demonstrieren, zu durchsuchen und Verbindungen in den angereicherten und indizierten Dokumenten zu erkunden.

Szenariodetails

Große, unstrukturierte Datasets können maschinengeschriebene und handschriftliche Notizen, Fotos und Diagramme sowie andere unstrukturierte Daten enthalten, die von Standardsuchlösungen nicht analysiert werden können. Die JFK Files enthalten über 34.000 Seiten an Dokumenten über die CIA-Untersuchung des JFK-Attentats von 1963.

Sie können die KI-Anreicherung in KI-Suche dazu verwenden, durchsuchbaren, indizierbaren Text aus Bildern, Blobs und anderen unstrukturierten Datenquellen wie den JFK-Akten zu extrahieren und zu verbessern. Bei der KI-Anreicherung werden vortrainierte Machine Learning-Skills aus den Azure KI Services Vision und Language verwendet. Sie können auch benutzerdefinierte Skills erstellen und anfügen, um eine spezielle Verarbeitung für domänenspezifische Daten wie etwa CIA-Kryptonyme hinzuzufügen. KI-Suche kann diesen Kontext anschließend indizieren und durchsuchen.

Die Skills der KI-Suche in dieser Lösung können in die folgenden Gruppen unterteilt werden:

  • Bildverarbeitung: Diese Lösung verwendet die integrierten Skills Textextraktion und Bildanalyse, einschließlich Erkennung von Objekten und Gesichtern, das Generieren von Tags und Beschriftungen sowie die Identifizierung von Prominenten und Wahrzeichen. Diese Skills erstellen Textdarstellungen von Bildinhalten, sodass sie mit den Abfragefunktionen der KI-Suche durchsucht werden können. Dokumententschlüsselung ist der Prozess des Extrahierens oder Erstellens von Textinhalt aus Nicht-Text-Quellen.

  • Linguistische Datenverarbeitung: Diese Lösung verwendet integrierte Skills wie Entitätserkennung, Spracherkennung und Extraktion von Schlüsselbegriffen, die unstrukturierten Text durchsuchbaren und filterbaren Feldern in einem Index zuweisen.

  • Benutzerdefinierte Skills: Diese Lösung verwendet benutzerdefinierte Skills, die die KI-Suche erweitern, um bestimmte Anreicherungstransformationen auf Inhalte anzuwenden. Sie können die Schnittstelle für einen benutzerdefinierten Skill über den Skill für benutzerdefinierte Web-APIs angeben.

Mögliche Anwendungsfälle

Das Beispielprojekt und den JFK-Akten und die Onlinedemo zeigen einen besonderen KI Suche-Anwendungsfall. Diese Lösungsidee ist nicht als ein Rahmenwerk oder skalierbare Architektur für alle Szenarien gedacht. Stattdessen bietet sie eine allgemeine Richtlinie und ein Beispiel. Das Codeprojekt und die Demo erstellen eine öffentliche Website und einen öffentlich lesbaren Speichercontainer für extrahierte Bilder. Daher sollten Sie diese Lösung nicht für nicht öffentliche Daten verwenden.

Sie können diese Architektur auch für Folgendes verwenden:

  • Steigern Sie den Wert und den Nutzen von unstrukturierten Text- und Bildinhalten in Such- und Data Science-Apps.

  • Verwenden Sie benutzerdefinierte Skills, um Open-Source-Code, Nicht-Microsoft-Code oder Microsoft-Code in Indizierungspipelinen zu integrieren.

  • Machen Sie gescannte JPG-, PNG- oder Bitmap-Dokumente durchsuchbar.

  • Erzielen Sie bessere Ergebnisse als bei der Standard-PDF-Textextraktion für PDF-Dateien mit Bildern und Text. Einige gescannte und native PDF-Formate werden in KI Suche unter Umständen nicht korrekt analysiert.

  • Erstellen Sie neue Informationen aus grundsätzlich aussagekräftigem Rohinhalt oder Kontext, der in großen unstrukturierten oder teilweise strukturierten Dokumenten verborgen ist.

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben.

Hauptautor:

Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.

Nächste Schritte

Erfahren Sie mehr über diese Lösung:

Lesen der Produktdokumentation:

Versuchen Sie den Lernpfad: