Erstellen eines Projekts für benutzerdefinierte NER

In diesem Artikel erfahren Sie, wie Sie die Anforderungen einrichten, um mit der benutzerdefinierten NER zu beginnen, und ein Projekt erstellen.

Voraussetzungen

Bevor Sie mit der Verwendung der benutzerdefinierten NER beginnen, benötigen Sie Folgendes:

Erstellen einer Language-Ressource

Bevor Sie eine benutzerdefinierte NER verwenden, benötigen Sie eine Azure KI Language-Ressource. Es wird empfohlen, Ihre Sprachressource zu erstellen und ein Speicherkonto im Azure-Portal damit zu verknüpfen. Wenn Sie eine Ressource im Azure-Portal erstellen, können Sie gleichzeitig ein Azure-Speicherkonto erstellen, wobei alle erforderlichen Berechtigungen vorkonfiguriert sind. Sie können in diesem Artikel auch weiterlesen, um zu erfahren, wie Sie eine bereits vorhandene Ressource verwenden und für die Verwendung mit benutzerdefinierter benannter Entitätserkennung konfigurieren.

Darüber hinaus benötigen Sie ein Azure-Speicherkonto, in das Sie Ihre .txt-Dokumente hochladen, die zum Trainieren eines Modells zum Extrahieren von Entitäten verwendet werden sollen.

Hinweis

  • Ihnen muss die Rolle Besitzer für die Ressourcengruppe zugewiesen sein, damit Sie eine Sprachressource erstellen können.
  • Wenn Sie eine Verbindung mit einem vorhandenen Speicherkonto herstellen, sollte ihm die Rolle Besitzer zugewiesen sein.

Erstellen von Sprachressourcen und Verbinden eines Speicherkontos

Sie können eine Ressource auf folgende Arten erstellen:

  • Das Azure-Portal
  • Language Studio
  • PowerShell

Hinweis

Sie sollten das Speicherkonto nicht in eine andere Ressourcengruppe oder ein Abonnement verschieben, nachdem es mit der Sprachressource verknüpft wurde.

Erstellen einer neuen Ressource im Azure-Portal

  1. Melden Sie sich beim Azure-Portal an, um eine neue Azure KI Language-Ressource zu erstellen.

  2. Wählen Sie im angezeigten Fenster in den benutzerdefinierten Features Benutzerdefinierte Textklassifizierung und benutzerdefinierte Erkennung benannter Entitäten aus. Wählen Sie unten auf dem Bildschirm Erstellung Ihrer Ressource fortsetzen aus.

    Screenshot der benutzerdefinierten Textklassifizierung und der benutzerdefinierten benannten Entitätserkennung im Azure-Portal

  3. Erstellen Sie eine Sprachressource mit den folgenden Details:

    Name BESCHREIBUNG
    Subscription Ihr Azure-Abonnement.
    Ressourcengruppe Eine Ressourcengruppe, die Ihre Ressource enthält. Sie können eine vorhandene verwenden oder eine neue erstellen.
    Region Die Region Ihrer Sprachressource. Beispiel: „USA, Westen 2“.
    Name Ein Name für Ihre Ressource.
    Tarif Der Tarif für Ihre Sprachressource Sie können den kostenlosen Tarif (F0) verwenden, um den Dienst auszuprobieren.

    Hinweis

    Wenn Sie in einer Meldung darauf hingewiesen werden, dass Ihr Anmeldekonto kein Besitzer der Ressourcengruppe des ausgewählten Speicherkontos ist, muss Ihrem Konto eine Besitzerrolle für die Ressourcengruppe zugewiesen werden, bevor Sie eine Sprachressource erstellen können. Wenden Sie sich an den Besitzer des Azure-Abonnements, um Unterstützung zu erhalten.

  4. Wählen Sie im Abschnitt Benutzerdefinierte Textklassifizierung und benutzerdefinierte Erkennung benannter Entitäten ein vorhandenes Speicherkonto aus, oder wählen Sie Neues Speicherkonto aus. Diese Werte sollen den Einstieg erleichtern und nicht unbedingt die Speicherkontowerte darstellen, die in Produktionsumgebungen verwendet werden sollten. Um Wartezeit beim Erstellen Ihres Projekts zu vermeiden, sollten Sie eine Verbindung mit Speicherkonten in derselben Region herstellen, in der sich auch Ihre Sprachressource befindet.

    Speicherkontowert Empfohlener Wert
    Speicherkontoname Beliebiger Name
    Speicherkontotyp Standardmäßiger LRS
  5. Stellen Sie sicher, dass die verantwortungsvolle KI-Benachrichtigung überprüft wird. Wählen Sie am unteren Seitenrand Überprüfen und erstellen und dann Erstellen aus.

Erstellen einer neuen Sprachressource über Language Studio

Wenn Sie sich zum ersten Mal anmelden, wird in Language Studio ein Fenster angezeigt, in dem Sie eine vorhandene Sprachressource auswählen oder eine neue erstellen können. Sie können eine Ressource auch erstellen, indem Sie auf das Einstellungssymbol in der oberen rechten Ecke klicken, Ressourcen auswählen und dann auf Neue Ressource erstellen klicken.

Erstellen Sie eine Sprachressource mit den folgenden Details:

Instanzdetails Erforderlicher Wert
Azure-Abonnement Ihr Azure-Abonnement
Azure-Ressourcengruppe Ihre Azure-Ressourcengruppe
Name der Azure-Ressource Ihr Azure-Ressourcenname
Standort Die Region Ihrer Sprachressource
Tarif Der Tarif Ihrer Sprachressource

Wichtig

  • Achten Sie darauf, dass Sie Verwaltete Identität aktivieren, wenn Sie eine Sprachressource erstellen.
  • Lesen und Bestätigen des Hinweises zu verantwortungsvoller KI

Falls Sie noch nicht über ein Konto verfügen, müssen Sie ein Azure-Speicherkonto erstellen, um die benutzerdefinierte benannte Entitätserkennung verwenden zu können.

Erstellen einer neuen Sprachressource mithilfe von PowerShell

Sie können eine neue Ressource und ein Speicherkonto mithilfe der folgenden CLI-Vorlage und Parameterdateien erstellen, die auf GitHub gehostet werden.

Bearbeiten Sie die folgenden Werte in der Parameterdatei:

Parametername Wertbeschreibung
name Name Ihrer Sprachressource
location Region, in der Ihre Ressource gehostet wird. Weitere Informationen finden Sie unter Diensteinschränkungen.
sku Tarif Ihrer Ressource
storageResourceName Name Ihres Speicherkontos
storageLocation Region, in der Ihr Speicherkonto gehostet wird.
storageSkuType SKU Ihres Speicherkontos.
storageResourceGroupName Ressourcengruppe Ihres Speicherkontos

Verwenden Sie den folgenden PowerShell-Befehl, um die ARM-Vorlage (Azure Resource Manager) mit den von Ihnen bearbeiteten Dateien bereitzustellen.

New-AzResourceGroupDeployment -Name ExampleDeployment -ResourceGroupName ExampleResourceGroup `
  -TemplateFile <path-to-arm-template> `
  -TemplateParameterFile <path-to-parameters-file>

Informationen zum Bereitstellen von Vorlagen und zu Parameterdateienfinden Sie in der ARM-Vorlagendokumentation.

Hinweis

  • Der Prozess zum Verbinden eines Speicherkontos mit Ihrer Sprachressource kann nicht rückgängig gemacht werden. Die Verbindung kann später nicht getrennt werden.
  • Sie können Ihre Sprachressource nur mit einem Speicherkonto verbinden.

Verwenden einer bereits vorhandenen Sprachressource

Sie können eine vorhandene Sprachressource verwenden, um mit der benutzerdefinierten NER zu beginnen, solange diese Ressource die folgenden Anforderungen erfüllt:

Anforderung BESCHREIBUNG
Regions Stellen Sie sicher, dass Ihre vorhandene Ressource in einer der unterstützten Regionen bereitgestellt wird. Andernfalls müssen Sie eine neue Ressource in einer dieser Regionen erstellen.
Tarif Weitere Informationen zu unterstützten Tarifen finden Sie hier.
Verwaltete Identität Stellen Sie sicher, dass die Einstellung für die verwaltete Identität der Ressource aktiviert ist. Lesen Sie andernfalls den nächsten Abschnitt.

Falls Sie noch nicht über ein Konto verfügen, müssen Sie ein Azure-Speicherkonto erstellen, um die benutzerdefinierte benannte Entitätserkennung verwenden zu können.

Aktivieren der Identitätsverwaltung für Ihre Ressource

Für Ihre Language-Ressource muss die Identitätsverwaltung aktiviert sein. Aktivieren Sie sie wie folgt über das Azure-Portal:

  1. Navigieren Sie zu Ihrer Sprachressource.
  2. Wählen Sie im Menü auf der linken Seite unter Ressourcenverwaltung die Option Identität aus.
  3. Legen Sie auf der Registerkarte Systemseitig zugewiesen die Option Status unbedingt auf Ein fest.

Aktivieren des Features „Benutzerdefinierte benannte Entitätserkennung“

Aktivieren Sie unbedingt das Feature Benutzerdefinierte Textklassifizierung/Benutzerdefinierte benannte Entitätserkennung im Azure-Portal.

  1. Wechseln Sie im Azure-Portal zu Ihrer Sprachressource.
  2. Wählen Sie im Menü auf der linken Seite im Abschnitt Ressourcenverwaltung die Option Features aus.
  3. Aktivieren Sie das Feature Benutzerdefinierte Textklassifizierung/Benutzerdefinierte benannte Entitätserkennung.
  4. Stellen Sie eine Verbindung mit Ihrem Speicherkonto her.
  5. Wählen Sie Übernehmen.

Wichtig

  • Vergewissern Sie sich, dass Ihrer Sprachressource die Rolle Mitwirkender an Storage-Blobdaten für das Speicherkonto zugewiesen ist, mit dem Sie eine Verbindung herstellen.

Hinzufügen erforderlicher Rollen

Führen Sie die folgenden Schritte aus, um die erforderlichen Rollen für Ihr Sprachressource und Ihr Speicherkonto festzulegen.

Ein animiertes Bild zeigt, wie Rollen im Azure-Portal eingerichtet werden.

Rollen für Ihre Azure KI Language-Ressource

  1. Wechseln Sie im Azure-Portal zu Ihrem Speicherkonto oder Ihrer Sprachressource.

  2. Wählen Sie im linken Navigationsmenü Access Control (IAM) aus.

  3. Wählen Sie Hinzufügen aus, um Rollenzuweisungen hinzuzufügen, und wählen Sie dann die entsprechende Rolle für Ihr Konto aus.

    Ihnen sollte die Rolle Besitzer oder Mitwirkender für Ihre Sprachressource zugewiesen sein.

  4. Wählen Sie unter Zugriff zuweisen zu die Option Benutzer, Gruppe oder Dienstprinzipal aus.

  5. Wählen Sie Mitglieder auswählen aus.

  6. Wählen Sie Ihren Benutzernamen aus. Sie können im Feld Auswählen nach Benutzernamen suchen. Wiederholen Sie diesen Vorgang für alle Rollen.

  7. Wiederholen Sie diese Schritte für alle Benutzerkonten, die Zugriff auf diese Ressource benötigen.

Rollen für Ihr Speicherkonto

  1. Navigieren Sie im Azure-Portal zu Ihrem Speicherkonto.
  2. Wählen Sie im linken Navigationsmenü Access Control (IAM) aus.
  3. Wählen Sie Hinzufügen aus, um Rollenzuweisungen hinzuzufügen, und wählen Sie dann die Rolle Mitwirkender an Storage-Blobdaten für das Speicherkonto aus.
  4. Wählen Sie unter Zugriff zuweisen zu die Option Verwaltete Identität aus.
  5. Wählen Sie Mitglieder auswählen aus.
  6. Wählen Sie Ihr Abonnement und Sprache als verwaltete Identität aus. Sie können im Feld Auswählen nach Benutzernamen suchen.

Rollen für Ihren Benutzer

Wichtig

Wenn Sie diesen Schritt überspringen, tritt beim Versuch, eine Verbindung mit Ihrem benutzerdefinierten Projekt herzustellen, ein Fehler 403 auf. Es ist wichtig, dass Ihr aktueller Benutzer über diese Rolle verfügt, um auf Blobdaten des Speicherkontos zuzugreifen, auch wenn Sie der Besitzer des Speicherkontos sind.

  1. Navigieren Sie im Azure-Portal zu Ihrem Speicherkonto.
  2. Wählen Sie im linken Navigationsmenü Access Control (IAM) aus.
  3. Wählen Sie Hinzufügen aus, um Rollenzuweisungen hinzuzufügen, und wählen Sie dann die Rolle Mitwirkender an Storage-Blobdaten für das Speicherkonto aus.
  4. Wählen Sie unter Zugriff zuweisen zu die Option Benutzer, Gruppe oder Dienstprinzipal aus.
  5. Wählen Sie Mitglieder auswählen aus.
  6. Wählen Sie Ihren Benutzer aus. Sie können im Feld Auswählen nach Benutzernamen suchen.

Wichtig

Wenn Sie über ein virtuelles Netzwerk oder einen privaten Endpunkt verfügen, achten Sie darauf, Azure-Diensten auf der Liste der vertrauenswürdigen Dienste den Zugriff auf dieses Speicherkonto erlauben im Azure-Portal zu aktivieren.

Aktivieren von CORS für Ihr Speicherkonto

Achten Sie darauf, Methoden (GET, PUT, DELETE) zuzulassen, wenn Sie CORS (Cross-Origin Resource Sharing) aktivieren. Legen Sie das Feld „Zulässige Ursprünge“ auf https://language.cognitive.azure.com fest. Lassen Sie alle Header zu, indem Sie den Werten für zulässige Header * hinzufügen, und legen Sie das maximale Alter auf 500 fest.

Screenshot: Verwendung von CORS für Speicherkonten.

Erstellen eines benutzerdefinierten Projekts zur Erkennung benannter Entitäten

Nachdem Ihre Ressource und der Speichercontainer konfiguriert wurden, erstellen Sie ein neues benutzerdefiniertes NER-Projekt. Ein Projekt ist ein Arbeitsbereich zum Erstellen Ihrer benutzerdefinierten KI-Modelle auf der Grundlage Ihrer Daten. Auf Ihr Projekt können nur Sie und andere Personen zugreifen, die Zugriff auf die verwendete Azure-Ressource haben. Wenn Sie bereits beschriftete Daten haben, können Sie sie als Grundlage für die ersten Schritte verwenden und ein Projekt importieren.

  1. Melden Sie sich bei Language Studio an. Es wird ein Fenster angezeigt, in dem Sie Ihr Abonnement und Ihre Sprachressource auswählen können. Wählen Sie die Sprachressource aus, die Sie im Schritt oben erstellt haben.

  2. Wählen Sie im Abschnitt Informationen extrahieren von Language Studio die Option Benutzerdefinierte benannte Entitätserkennung aus.

    Screenshot: Speicherort der bentzerdefinierten Erkennung benannter Entitäten auf der Landing Page von Language Studio

  3. Wählen Sie im oberen Menü Ihrer Projektseite Neues Projekt erstellen aus. Durch das Erstellen eines Projekts können Sie Daten kennzeichnen sowie Ihre Modelle trainieren, auswerten, verbessern und bereitstellen.

    Screenshot der Seite zur Projekterstellung.

  4. Nachdem Sie auf Neues Projekt erstellen geklickt haben, wird ein Fenster angezeigt, in dem Sie eine Verbindung mit Ihrem Speicherkonto herstellen können. Wenn Sie bereits ein Speicherkonto verbunden haben, wird das verbundene Speicherkonto angezeigt. Falls nicht, wählen Sie Ihr Speicherkonto im angezeigten Dropdownmenü aus, und klicken Sie auf Speicherkonto verbinden. Dadurch werden die erforderlichen Rollen für Ihr Speicherkonto festgelegt. Dieser Schritt gibt möglicherweise einen Fehler zurück, wenn Sie nicht als Besitzer des Speicherkontos zugewiesen sind.

    Hinweis

    • Sie müssen diesen Schritt nur einmal für jede neue Ressource durchführen, die Sie verwenden.
    • Dieser Prozess kann nicht rückgängig gemacht werden – wenn Sie ein Speicherkonto mit Ihrer Sprachressource verbinden, können Sie die Verbindung später nicht trennen.
    • Sie können Ihre Sprachressource nur mit einem Speicherkonto verbinden.

    Screenshot: Bildschirm zum Herstellen von Speicherverbindungen.

  5. Geben Sie die Projektinformationen ein, einschließlich eines Namens, einer Beschreibung und der Sprache der Dateien in Ihrem Projekt. Wenn Sie das Beispieldataset verwenden, wählen Sie Englisch aus. Sie können den Namen Ihres Projekts später nicht mehr ändern. Wählen Sie Weiter aus.

    Tipp

    Ihr Dataset muss nicht zur Gänze in derselben Sprache vorliegen. Sie können mehrere Dokumente verwenden, jedes mit jeweils anderen unterstützten Sprachen. Wenn Ihr Dataset Dokumente in verschiedenen Sprachen enthält oder Sie zur Laufzeit mit Text mit verschiedenen Sprachen rechnen, wählen Sie die Option Mehrsprachiges Dataset aktivieren aus, wenn Sie die grundlegenden Informationen für Ihr Projekt eingeben. Diese Option kann später auf der Seite Projekteinstellungen aktiviert werden.

  6. Wählen Sie den Container aus, in den Sie Ihr Dataset hochgeladen haben. Wenn Sie die Daten bereits beschriftet haben, stellen Sie sicher, dass sie dem unterstützten Format entsprechen, und wählen Sie Ja, meine Dateien sind bereits beschriftet, und ich habe die JSON-Bezeichnungsdatei formatiert aus. Wählen Sie die Bezeichnungsdatei im Dropdownmenü aus. Wählen Sie Weiter aus.

  7. Überprüfen Sie die eingegebenen Daten, und wählen Sie Projekt erstellen aus.

Importieren des Projekts

Wenn Sie bereits beschriftete Daten haben, können Sie sie verwenden, um mit dem Dienst zu beginnen. Achten Sie darauf, dass Ihre Daten dem akzeptierten Datenformat entsprechen.

  1. Melden Sie sich bei Language Studio an. Es wird ein Fenster angezeigt, in dem Sie Ihr Abonnement und Ihre Sprachressource auswählen können. Wählen Sie Ihre Sprachressource aus.

  2. Wählen Sie im Abschnitt Informationen extrahieren von Language Studio die Option Benutzerdefinierte benannte Entitätserkennung aus.

    Screenshot: Speicherort der benutzerdefinierten benannten Entitätserkennung auf der Landing Page von Language Studio.

  3. Wählen Sie im oberen Menü Ihrer Projektseite Neues Projekt erstellen aus. Durch das Erstellen eines Projekts können Sie Daten kennzeichnen sowie Ihre Modelle trainieren, auswerten, verbessern und bereitstellen.

    Screenshot der Seite zur Projekterstellung.

  4. Nachdem Sie Neues Projekt erstellen ausgewählt haben,wird ein Bildschirm angezeigt, auf dem Sie eine Verbindung mit Ihrem Speicherkonto herstellen können. Wenn Sie Ihr Speicherkonto nicht finden können, vergewissern Sie sich, dass Sie beim Erstellen der Ressource die empfohlenen Schritte durchgeführt haben. Wenn Sie bereits ein Speicherkonto mit Ihrer Sprachressource verbunden haben, wird Ihr verbundenes Speicherkonto angezeigt.

    Hinweis

    • Sie müssen diesen Schritt nur einmal für jede neue Sprachressource durchführen, die Sie verwenden.
    • Dieser Prozess kann nicht rückgängig gemacht werden – wenn Sie ein Speicherkonto mit Ihrer Sprachressource verbinden, können Sie die Verbindung später nicht trennen.
    • Sie können Ihre Sprachressource nur mit einem Speicherkonto verbinden.

    Screenshot: Bildschirm zum Herstellen einer Verbindung mit dem Speicher für neue Projekte.

  5. Geben Sie die Projektinformationen ein, einschließlich eines Namens, einer Beschreibung und der Sprache der Dateien in Ihrem Projekt. Sie können den Namen Ihres Projekts später nicht mehr ändern. Wählen Sie Weiter aus.

    Tipp

    Ihr Dataset muss nicht zur Gänze in derselben Sprache vorliegen. Sie können mehrere Dokumente verwenden, jedes mit jeweils anderen unterstützten Sprachen. Wenn Ihr Dataset Dokumente in verschiedenen Sprachen enthält oder Sie zur Laufzeit mit Text mit verschiedenen Sprachen rechnen, wählen Sie die Option Mehrsprachiges Dataset aktivieren aus, wenn Sie die grundlegenden Informationen für Ihr Projekt eingeben. Diese Option kann später auf der Seite Projekteinstellungen aktiviert werden.

  6. Wählen Sie den Container aus, in den Sie Ihr Dataset hochgeladen haben.

  7. Klicken Sie auf Ja, meine Dateien sind bereits beschriftet, und ich habe die JSON-Bezeichnungsdatei formatiert., und wählen Sie die Bezeichnungsdatei im unten angegebenen Dropdownmenü aus, um Ihre Datei mit JSON-Tags zu importieren. Achten Sie darauf, dass sie dem unterstützten Format entspricht.

  8. Wählen Sie Weiter aus.

  9. Überprüfen Sie die eingegebenen Daten, und wählen Sie Projekt erstellen aus.

Abrufen von Projektdetails

  1. Navigieren Sie in Language Studio zur Seite mit den Projekteinstellungen.

  2. Sie können Projektdetails anzeigen.

  3. Auf dieser Seite können Sie in den Projekteinstellungen die Projektbeschreibung aktualisieren und das mehrsprachige Dataset aktivieren/deaktivieren.

  4. Sie können auch das verbundene Speicherkonto und den Container Ihrer Sprachressource anzeigen.

  5. Außerdem können Sie auf dieser Seite den primären Ressourcenschlüssel abrufen.

    Der Screenshot der Projekteinstellungsseite in Language Studio.

Löschen eines Projekts

Wenn Sie Ihr Projekt nicht mehr benötigen, können Sie das Projekt mithilfe von Language Studio löschen. Wählen Sie oben Benutzerdefinierte Erkennung benannter Entitäten (NER) und das zu löschende Projekt und dann im oberen Menü Löschen aus.

Nächste Schritte

  • Sie sollten eine Vorstellung von dem Projektschema haben, das Sie zum Bezeichnen Ihrer Daten verwenden werden.

  • Nachdem das Projekt erstellt wurde, können Sie mit dem Bezeichnen Ihrer Daten beginnen, wodurch Ihr Entitätsextraktionsmodell darüber informiert wird, wie Text interpretiert wird, und für das Training und die Auswertung verwendet wird.