Formati di dati Riconoscimento entità denominata personalizzati accettati

Se si sta tentando di importare dati in Riconoscimento entità denominata, è necessario rispettare un formato specifico. Se non si dispone di dati da importare, è possibile creare il progetto e usare Language Studio per etichettare i documenti.

Formato del file delle etichette

Il file delle etichette deve avere il json formato indicato di seguito per poter essere usato per l’importazione di etichette in un progetto.

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Chiave Segnaposto Valore Esempio
multilingual true Valore booleano che consente l’inclusione di documenti in diverse lingue nel set di dati; quando il modello viene distribuito, è possibile eseguire query sul modello in qualunque lingua supportata (non necessariamente inclusa nei documenti di training). Per altre informazioni sul supporto multilingue, vedere Supporto lingue. true
projectName {PROJECT-NAME} Nome progetto myproject
storageInputContainerName {CONTAINER-NAME} Nome contenitore mycontainer
entities Array contenente tutti i tipi di entità inclusi nel progetto. Sono i tipi di entità che verranno estratti dai documenti.
documents Array contenente tutti i documenti nel progetto e l'elenco delle entità etichettate all'interno di ogni documento. []
location {DOCUMENT-NAME} Posizione dei documenti nel contenitore di archiviazione. Siccome tutti i documenti sono inclusi nella radice del contenitore, deve essere il nome del documento. doc1.txt
dataset {DATASET} Il set di test a cui verrà sottoposto questo file quando verrà diviso prima del training. Altre informazioni sulla suddivisione dei dati sono disponibili qui. I valori possibili per questo campo sono Train e Test. Train
regionOffset La posizione del carattere inclusivo dell'inizio del testo. 0
regionLength La lunghezza del rettangolo di selezione in termini di caratteri UTF16. Il training considera solo i dati in quest’area. 500
category Il tipo di entità associata all'intervallo di testo specificato. Entity1
offset La posizione iniziale per il testo dell'entità. 25
length La lunghezza dell’entità in termini di caratteri UTF16. 20
language {LANGUAGE-CODE} Una stringa che specifica il codice lingua per il documento usato nel progetto. Se il progetto è un progetto multilingue, scegliere il codice lingua della maggior parte dei documenti. Per altre informazioni sui codici lingua supportati, vedere Supporto lingue. en-us

Passaggi successivi