Vorbereiten von Daten und Definieren eines Schemas für die benutzerdefinierte Textanalyse für Gesundheit

Um ein benutzerdefiniertes TA4H-Modell zu erstellen, benötigen Sie Qualitätsdaten, um es zu trainieren. In diesem Artikel wird beschrieben, wie Sie Ihre Daten auswählen und aufbereiten und ein Schema definieren. Das Definieren des Schemas ist der erste Schritt im Projektentwicklungslebenszyklus und beinhaltet das Definieren der Entitätstypen oder Kategorien, die Ihr Modell zur Laufzeit aus dem Text extrahieren muss.

Schemaentwurf

Mit benutzerdefinierter Textanalyse für Gesundheit können Sie die Entitätszuordnung der Textanalyse für Gesundheit erweitern und anpassen. Der erste Schritt des Prozesses besteht darin, Ihr Schema zu erstellen. Dabei können Sie die neuen Entitätstypen oder Kategorien definieren, die Ihr Modell zusätzlich zu den vorhandenen Entitäten der Textanalyse für Gesundheit zur Laufzeit aus Text extrahieren muss.

  • Überprüfen Sie die Dokumente in Ihrem Dataset, um sich mit ihrem Format und ihrer Struktur vertraut zu machen.

  • Bestimmen Sie die Entitäten, die Sie aus den Daten extrahieren möchten.

    Wenn Sie beispielsweise Entitäten aus Support-E-Mails extrahieren, kann es sinnvoll sein, „Kundenname“, „Produktname“, „Anforderungsdatum“ und „Kontaktinformationen“ zu extrahieren.

  • Vermeiden Sie Mehrdeutigkeiten bei Entitätstypen.

    Mehrdeutigkeit tritt auf, wenn die von Ihnen ausgewählten Entitätstypen einander ähneln. Je mehrdeutiger Ihr Schema ist, desto mehr bezeichnete Daten müssen Sie zwischen verschiedenen Entitätstypen unterscheiden.

    Wenn Sie z. B. Daten aus einem Vertrag extrahieren, müssen Sie weitere Beispiele hinzufügen, um „Name der Ersten Partei“ und „Name der zweiten Partei“ zu extrahieren, um Mehrdeutigkeiten zu vermeiden, da die Namen beider Parteien ähnlich aussehen. Das Vermeiden von Mehrdeutigkeit spart Zeit, Aufwand und führt zu besseren Ergebnissen.

  • Vermeiden Sie komplexe Entitäten. Komplexe Entitäten können im Text schwierig zu ermitteln sein. Erwägen Sie eine Aufteilung in mehrere Entitäten.

    Das Extrahieren von „Address“ wäre z. B. eine Herausforderung, wenn diese Entität nicht auf kleinere Entitäten aufgeteilt wird. Adressen treten in so vielen verschiedenen Varianten auf, dass eine große Anzahl bezeichneter Entitäten erforderlich wäre, um dem Modell das Extrahieren einer Adresse im Ganzen beizubringen, ohne sie aufzubrechen. Wenn Sie jedoch „Adresse“ durch „Straßenname“, „Postfach“, „Stadt“, „Bundesland“ und „Postleitzahl“ ersetzen, benötigt das Modell weniger Bezeichnungen pro Entität.

Hinzufügen von Entitäten

So fügen Sie Ihrem Projekt Entitäten hinzu

  1. Wechseln Sie oben auf der Seite zum Pivot Entitäten.

  2. Entitäten der Textanalyse für Gesundheit werden automatisch in Ihr Projekt geladen. Wählen Sie zum Hinzufügen zusätzlicher Entitätskategorien im oberen Menü Hinzufügen aus. Sie werden aufgefordert, einen Namen einzugeben, bevor die Erstellung der Entität abgeschlossen wird.

  3. Nach dem Erstellen einer Entität werden Sie an die Seite mit den Entitätsdetails weitergeleitet, auf der Sie die Kompositionseinstellungen für diese Entität definieren können.

  4. Entitäten werden durch Entitätskomponenten definiert: gelernt, Liste oder vordefiniert. Entitäten der Textanalyse für Gesundheit werden standardmäßig mit der vordefinierten Komponente aufgefüllt und können keine gelernten Komponenten enthalten. Ihre neu definierten Entitäten können mit der gelernten Komponente aufgefüllt werden, sobald Sie in Ihren Daten Bezeichnungen für sie hinzugefügt haben. Sie können jedoch nicht mit der vordefinierten Komponente aufgefüllt werden.

  5. Sie können jeder Ihrer Entitäten eine Listenkomponente hinzufügen.

Hinzufügen einer Listenkomponente

Um eine Listenkomponente hinzuzufügen, wählen Sie Neue Listenkomponente hinzufügenaus. Sie können jeder Entität mehrere Listen hinzufügen.

  1. Um eine neue Liste zu erstellen, geben Sie im Textfeld Wert eingeben den normalisierten Wert ein, der zurückgegeben wird, wenn eine der Synonymwerte extrahiert wird.

  2. Wählen Sie bei mehrsprachigen Projekten im Dropdownmenü Sprache die Sprache der Synonymliste aus. Geben Sie Ihre Synonyme ein, und drücken Sie nach jeder Eingabe die EINGABETASTE. Es empfiehlt sich, Synonymlisten in mehreren Sprachen anzulegen.

Definieren von Entitätsoptionen

Wechseln Sie auf der Seite mit den Entitätsdetails zum Pivot Entitätsoptionen. Wenn mehrere Komponenten für eine Entität definiert sind, können sich ihre Vorhersagen überlappen. Bei Überschneidungen wird die endgültige Vorhersage jeder Entität basierend auf der in diesem Schritt ausgewählten Entitätsoption bestimmt. Wählen Sie die Option aus, die Sie auf diese Entität anwenden möchten, und klicken Sie oben auf die Schaltfläche Speichern.

Sie können die Entitäten nach der Erstellung bearbeiten. Sie können Entitätskomponenten bearbeiten oder löschen, indem Sie diese Option im oberen Menü auswählen.

Datenauswahl

Die Qualität der Daten, mit denen Sie Ihr Modell trainieren, hat großen Einfluss auf die Leistung des Modells.

  • Verwenden Sie echte Daten, die den Problembereich Ihrer Domäne widerspiegeln, um Ihr Modell effektiv zu trainieren. Sie können synthetische Daten verwenden, um den anfänglichen Trainingsprozess von Modellen zu beschleunigen, aber diese unterscheiden sich wahrscheinlich von Ihren realen Daten und machen Ihr Modell bei Verwendung weniger effektiv.

  • Gleichen Sie Ihre Datenverteilung so weit wie möglich aus, ohne weit von der realen Verteilung abzuweichen. Wenn Sie Ihr Modell z. B. dafür trainieren, Entitäten aus Rechtsdokumenten zu extrahieren, die in vielen verschiedenen Formaten und Sprachen vorliegen können, sollten Sie Beispiele bereitstellen, um die in der Praxis erwartete Vielfalt beispielhaft wiederzugeben.

  • Verwenden Sie nach Möglichkeit unterschiedliche Daten, um eine Überanpassung Ihres Modells zu verhindern. Eine geringere Vielfalt der Trainingsdaten kann dazu führen, dass Ihr Modell zweifelhafte Korrelationen lernt, die in realen Daten möglicherweise nicht vorhanden sind.

  • Vermeiden Sie das Duplizieren von Dokumenten in Ihren Daten. Doppelte Daten wirken sich negativ auf den Trainingsprozess, die Modellmetriken und die Modellleistung aus.

  • Berücksichtigen Sie, woher Ihre Daten stammen. Wenn Sie Daten von einer Person, aus einer Abteilung oder aus einem Teil Ihres Szenarios sammeln, fehlt ihnen wahrscheinlich die Diversität, deren Erlernen für Ihr Modell möglicherweise wichtig ist.

Hinweis

Wenn Sie Dokumente in mehreren Sprachen verarbeiten möchten, wählen Sie bei der Projekterstellung die Option enable multi-lingual (Mehrsprachig aktivieren) aus, und legen Sie die Option Sprache auf die Sprache der Mehrheit Ihrer Dokumente fest.

Datenvorbereitung

Als Voraussetzung für die Erstellung eines Projekts müssen Ihre Trainingsdaten in einen Blobcontainer in Ihrem Speicherkonto hochgeladen werden. Sie können Trainingsdokumente direkt aus Azure oder mithilfe des Tools Azure Storage-Explorer erstellen und hochladen. Mit dem Azure Storage-Explorer-Tool können Sie schneller mehr Daten hochladen.

Sie können nur .txt-Dokumente verwenden. Wenn Ihre Daten in einem anderen Format vorliegen, können Sie den Parse-Befehl von CLUtils verwenden, um das Dokumentformat zu ändern.

Sie können ein mit Anmerkungen versehenes Dataset oder ein nicht kommentiertes Dataset hochladen und Ihre Daten in Language Studio bezeichnen.

Testsatz

Legen Sie bei der Definition des Testsatzes auch Beispieldokumente fest, die nicht im Trainingssatz enthalten sind. Die Definition des Testsatzes ist ein wichtiger Schritt zur Berechnung der Modellleistung. Stellen Sie außerdem sicher, dass der Testsatz Dokumente enthält, die alle in Ihrem Projekt verwendeten Entitäten repräsentieren.

Nächste Schritte

Erstellen Sie ein benutzerdefiniertes Projekt für die Textanalyse für Gesundheit, sofern noch nicht geschehen. Wenn Sie die benutzerdefinierte Textanalyse für Gesundheit zum ersten Mal verwenden, sollten Sie den Schnellstart in Betracht ziehen, um ein Beispielprojekt zu erstellen. Weitere Informationen zu den Voraussetzungen zum Erstellen eines Projekts finden Sie außerdem im Anleitungsartikel.