Formati di dati Riconoscimento entità denominata personalizzati accettati
Se si sta tentando di importare dati in Riconoscimento entità denominata, è necessario rispettare un formato specifico. Se non si dispone di dati da importare, è possibile creare il progetto e usare Language Studio per etichettare i documenti.
Formato del file delle etichette
Il file delle etichette deve avere il json
formato indicato di seguito per poter essere usato per l’importazione di etichette in un progetto.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
Chiave | Segnaposto | Valore | Esempio |
---|---|---|---|
multilingual |
true |
Valore booleano che consente l’inclusione di documenti in diverse lingue nel set di dati; quando il modello viene distribuito, è possibile eseguire query sul modello in qualunque lingua supportata (non necessariamente inclusa nei documenti di training). Per altre informazioni sul supporto multilingue, vedere Supporto lingue. | true |
projectName |
{PROJECT-NAME} |
Nome progetto | myproject |
storageInputContainerName | {CONTAINER-NAME} |
Nome contenitore | mycontainer |
entities |
Array contenente tutti i tipi di entità inclusi nel progetto. Sono i tipi di entità che verranno estratti dai documenti. | ||
documents |
Array contenente tutti i documenti nel progetto e l'elenco delle entità etichettate all'interno di ogni documento. | [] | |
location |
{DOCUMENT-NAME} |
Posizione dei documenti nel contenitore di archiviazione. Siccome tutti i documenti sono inclusi nella radice del contenitore, deve essere il nome del documento. | doc1.txt |
dataset |
{DATASET} |
Il set di test a cui verrà sottoposto questo file quando verrà diviso prima del training. Altre informazioni sulla suddivisione dei dati sono disponibili qui. I valori possibili per questo campo sono Train e Test . |
Train |
regionOffset |
La posizione del carattere inclusivo dell'inizio del testo. | 0 |
|
regionLength |
La lunghezza del rettangolo di selezione in termini di caratteri UTF16. Il training considera solo i dati in quest’area. | 500 |
|
category |
Il tipo di entità associata all'intervallo di testo specificato. | Entity1 |
|
offset |
La posizione iniziale per il testo dell'entità. | 25 |
|
length |
La lunghezza dell’entità in termini di caratteri UTF16. | 20 |
|
language |
{LANGUAGE-CODE} |
Una stringa che specifica il codice lingua per il documento usato nel progetto. Se il progetto è un progetto multilingue, scegliere il codice lingua della maggior parte dei documenti. Per altre informazioni sui codici lingua supportati, vedere Supporto lingue. | en-us |
Passaggi successivi
- È possibile importare direttamente i dati etichettati nel progetto. Informazioni su come importare un progetto
- Per altre informazioni sull’etichettatura dei dati, vedere l’articolo esplicativo. Dopo aver etichettato i dati, è possibile eseguire il training del modello.