Akzeptierte Datenformate in der benutzerdefinierten Textanalyse für Gesundheit

In diesem Artikel erfahren Sie, wie Sie Ihre Daten formatieren, die in die benutzerdefinierte Textanalyse für Gesundheit importiert werden sollen.

Wenn Sie Ihre Daten in die benutzerdefinierte Textanalyse für Gesundheit importieren möchten, müssen die Daten ein bestimmtes Format aufweisen. Wenn Sie keine Daten importieren müssen, können Sie Ihr Projekt erstellen und Language Studio zum Beschriften Ihrer Dokumente verwenden.

Ihre Bezeichnungsdatei muss das folgende json-Format haben, damit sie beim Importieren Ihrer Beschriftungen in ein Projekt verwendet werden kann.

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

Schlüssel Platzhalter Wert Beispiel
multilingual true Dies ist ein boolescher Wert, der es ermöglicht, dass Ihr Dataset Dokumente in mehreren Sprachen enthält. Wenn Ihr Modell bereitgestellt wird, können Sie das Modell in jeder unterstützten Sprache abfragen (die nicht zwangsläufig in Ihren Trainingsdokumenten enthalten ist). Informationen zur Unterstützung mehrerer Sprachen finden Sie unter Sprachunterstützung. true
projectName {PROJECT-NAME} Projektname myproject
storageInputContainerName {CONTAINER-NAME} Containername mycontainer
entities Dies ist ein Array mit allen Entitätstypen, die im Projekt enthalten sind. Dies sind die Entitätstypen, die aus Ihren Dokumenten extrahiert werden.
category Der Name des Entitätstyps. Dieser kann bei neuen Entitätsdefinitionen benutzerdefiniert und bei vordefinierten Entitäten vordefiniert sein. Weitere Informationen finden Sie weiter unten in den Benennungsregeln für Entitäten.
compositionSetting {COMPOSITION-SETTING} Regel, die definiert, wie mehrere Komponenten in Ihrer Entität verwaltet werden. Die verfügbaren Optionen sind combineComponents oder separateComponents. combineComponents
list Array mit allen Unterlisten, die im Projekt für eine bestimmte Entität vorhanden sind. Listen können vordefinierten Entitäten oder neuen Entitäten mit gelernten Komponenten hinzugefügt werden.
sublists [] Array, das Unterlisten enthält. Jede Unterliste stellt einen Schlüssel und seine zugeordneten Werte dar. []
listKey One Ein normalisierter Wert für die Liste der Synonyme, die der Vorhersage wieder zugeordnet werden sollen. One
synonyms [] Array, das alle Synonyme enthält Synonym
language {LANGUAGE-CODE} Eine Zeichenfolge, die den Sprachcode für das Synonym in Ihrer Unterliste angibt. Wenn es sich bei Ihrem Projekt um ein mehrsprachiges Projekt handelt und Sie Ihre Synonymliste für alle Sprachen in Ihrem Projekt unterstützen möchten, müssen Sie Ihre Synonyme explizit jeder Sprache hinzufügen. Weitere Informationen zu unterstützten Sprachcodes finden Sie unter Sprachunterstützung. en
values "EntityNumberone", "FirstEntity" Eine Liste aus kommagetrennten Zeichenfolgen, für die bei der Extraktion genaue Übereinstimmung erforderlich ist und die dem Listenschlüssel zugeordnet werden. "EntityNumberone", "FirstEntity"
prebuilts MedicationName Der Name der vordefinierten Komponente, die die vordefinierte Entität auffüllt. Vordefinierte Entitäten werden standardmäßig automatisch in Ihr Projekt geladen, können aber mit Listenkomponenten in Ihrer Bezeichnungsdatei erweitert werden. MedicationName
documents Dies ist ein Array mit allen Dokumenten in Ihrem Projekt und die Liste der Entitäten, die innerhalb jedes Dokuments gekennzeichnet sind. []
location {DOCUMENT-NAME} Dies ist der Speicherort der Dokumente im Speichercontainer. Da sich alle Dokumente im Stammverzeichnis des Containers befinden, sollte dies der Dokumentname sein. doc1.txt
dataset {DATASET} Der Testsatz, in dem diese Datei bei der Aufteilung vor dem Training platziert wird. Weitere Informationen zur Datenaufteilung finden Sie hier. Mögliche Werte für dieses Feld sind Train und Test. Train
regionOffset Die inklusive Zeichenposition des Textanfangs 0
regionLength Die Länge des Begrenzungsfelds, ausgedrückt in UTF16-Zeichen Beim Trainieren werden nur die Daten in dieser Region berücksichtigt. 500
category Der Typ der Entität, die dem angegebenen Textbereich zugeordnet ist Entity1
offset Die Startposition für den Entitätstext 25
length Die Länge der Entität in UTF16-Zeichen 20
language {LANGUAGE-CODE} Eine Zeichenfolge, die den Sprachcode für das in Ihrem Projekt verwendete Dokument angibt. Wählen Sie bei einem mehrsprachigen Projekt den Sprachcode für die Sprache aus, die in den meisten Dokumenten verwendet wird. Weitere Informationen zu unterstützten Sprachcodes finden Sie unter Sprachunterstützung. en

Benennungsregeln für Entitäten

  1. Vordefinierte Entitätsnamen werden vorab definiert. Sie müssen mit einer vordefinierten Komponente aufgefüllt werden und mit dem Entitätsnamen übereinstimmen.
  2. Neue benutzerdefinierte Entitäten (Entitäten mit gelernten Komponenten oder beschriftetem Text) können keine vordefinierten Entitätsnamen verwenden.
  3. Neue benutzerdefinierte Entitäten können nicht mit vordefinierten Komponenten aufgefüllt werden, da vordefinierte Komponenten mit ihren zugeordneten Entitätsnamen übereinstimmen müssen und ihnen keine beschrifteten Daten im Documents-Array zugewiesen sind.

Nächste Schritte