Akzeptierte Datenformate in der benutzerdefinierten Textanalyse für Gesundheit

Artikel
09/03/2024

In diesem Artikel erfahren Sie, wie Sie Ihre Daten formatieren, die in die benutzerdefinierte Textanalyse für Gesundheit importiert werden sollen.

Wenn Sie Ihre Daten in die benutzerdefinierte Textanalyse für Gesundheit importieren möchten, müssen die Daten ein bestimmtes Format aufweisen. Wenn Sie keine Daten importieren müssen, können Sie Ihr Projekt erstellen und Language Studio zum Beschriften Ihrer Dokumente verwenden.

Ihre Bezeichnungsdatei muss das folgende json-Format haben, damit sie beim Importieren Ihrer Beschriftungen in ein Projekt verwendet werden kann.

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

Schlüssel	Platzhalter	Wert	Beispiel
`multilingual`	`true`	Dies ist ein boolescher Wert, der es ermöglicht, dass Ihr Dataset Dokumente in mehreren Sprachen enthält. Wenn Ihr Modell bereitgestellt wird, können Sie das Modell in jeder unterstützten Sprache abfragen (die nicht zwangsläufig in Ihren Trainingsdokumenten enthalten ist). Informationen zur Unterstützung mehrerer Sprachen finden Sie unter Sprachunterstützung.	`true`
`projectName`	`{PROJECT-NAME}`	Projektname	`myproject`
`storageInputContainerName`	`{CONTAINER-NAME}`	Containername	`mycontainer`
`entities`		Dies ist ein Array mit allen Entitätstypen, die im Projekt enthalten sind. Dies sind die Entitätstypen, die aus Ihren Dokumenten extrahiert werden.
`category`		Der Name des Entitätstyps. Dieser kann bei neuen Entitätsdefinitionen benutzerdefiniert und bei vordefinierten Entitäten vordefiniert sein. Weitere Informationen finden Sie weiter unten in den Benennungsregeln für Entitäten.
`compositionSetting`	`{COMPOSITION-SETTING}`	Regel, die definiert, wie mehrere Komponenten in Ihrer Entität verwaltet werden. Die verfügbaren Optionen sind `combineComponents` oder `separateComponents`.	`combineComponents`
`list`		Array mit allen Unterlisten, die im Projekt für eine bestimmte Entität vorhanden sind. Listen können vordefinierten Entitäten oder neuen Entitäten mit gelernten Komponenten hinzugefügt werden.
`sublists`	`[]`	Array, das Unterlisten enthält. Jede Unterliste stellt einen Schlüssel und seine zugeordneten Werte dar.	`[]`
`listKey`	`One`	Ein normalisierter Wert für die Liste der Synonyme, die der Vorhersage wieder zugeordnet werden sollen.	`One`
`synonyms`	`[]`	Array, das alle Synonyme enthält	Synonym
`language`	`{LANGUAGE-CODE}`	Eine Zeichenfolge, die den Sprachcode für das Synonym in Ihrer Unterliste angibt. Wenn es sich bei Ihrem Projekt um ein mehrsprachiges Projekt handelt und Sie Ihre Synonymliste für alle Sprachen in Ihrem Projekt unterstützen möchten, müssen Sie Ihre Synonyme explizit jeder Sprache hinzufügen. Weitere Informationen zu unterstützten Sprachcodes finden Sie unter Sprachunterstützung.	`en`
`values`	`"EntityNumberone"`, `"FirstEntity"`	Eine Liste aus kommagetrennten Zeichenfolgen, für die bei der Extraktion genaue Übereinstimmung erforderlich ist und die dem Listenschlüssel zugeordnet werden.	`"EntityNumberone"`, `"FirstEntity"`
`prebuilts`	`MedicationName`	Der Name der vordefinierten Komponente, die die vordefinierte Entität auffüllt. Vordefinierte Entitäten werden standardmäßig automatisch in Ihr Projekt geladen, können aber mit Listenkomponenten in Ihrer Bezeichnungsdatei erweitert werden.	`MedicationName`
`documents`		Dies ist ein Array mit allen Dokumenten in Ihrem Projekt und die Liste der Entitäten, die innerhalb jedes Dokuments gekennzeichnet sind.	[]
`location`	`{DOCUMENT-NAME}`	Dies ist der Speicherort der Dokumente im Speichercontainer. Da sich alle Dokumente im Stammverzeichnis des Containers befinden, sollte dies der Dokumentname sein.	`doc1.txt`
`dataset`	`{DATASET}`	Der Testsatz, in dem diese Datei bei der Aufteilung vor dem Training platziert wird. Weitere Informationen zur Datenaufteilung finden Sie hier. Mögliche Werte für dieses Feld sind `Train` und `Test`.	`Train`
`regionOffset`		Die inklusive Zeichenposition des Textanfangs	`0`
`regionLength`		Die Länge des Begrenzungsfelds, ausgedrückt in UTF16-Zeichen Beim Trainieren werden nur die Daten in dieser Region berücksichtigt.	`500`
`category`		Der Typ der Entität, die dem angegebenen Textbereich zugeordnet ist	`Entity1`
`offset`		Die Startposition für den Entitätstext	`25`
`length`		Die Länge der Entität in UTF16-Zeichen	`20`
`language`	`{LANGUAGE-CODE}`	Eine Zeichenfolge, die den Sprachcode für das in Ihrem Projekt verwendete Dokument angibt. Wählen Sie bei einem mehrsprachigen Projekt den Sprachcode für die Sprache aus, die in den meisten Dokumenten verwendet wird. Weitere Informationen zu unterstützten Sprachcodes finden Sie unter Sprachunterstützung.	`en`

Benennungsregeln für Entitäten

Vordefinierte Entitätsnamen werden vorab definiert. Sie müssen mit einer vordefinierten Komponente aufgefüllt werden und mit dem Entitätsnamen übereinstimmen.
Neue benutzerdefinierte Entitäten (Entitäten mit gelernten Komponenten oder beschriftetem Text) können keine vordefinierten Entitätsnamen verwenden.
Neue benutzerdefinierte Entitäten können nicht mit vordefinierten Komponenten aufgefüllt werden, da vordefinierte Komponenten mit ihren zugeordneten Entitätsnamen übereinstimmen müssen und ihnen keine beschrifteten Daten im Documents-Array zugewiesen sind.

Nächste Schritte

Sie können Ihre beschrifteten Daten direkt in Ihr Projekt importieren. Importieren von Projekten
Weitere Informationen zum Beschriften Ihrer Daten finden Sie im Anleitungsartikel.
Wenn Sie die Beschriftung Ihrer Daten abgeschlossen haben, können Sie Ihr Modell trainieren.

Freigeben über

Akzeptierte Datenformate in der benutzerdefinierten Textanalyse für Gesundheit

Benennungsregeln für Entitäten

Nächste Schritte

Feedback

Zusätzliche Ressourcen