Formati di dati Riconoscimento entità denominata personalizzati accettati

Articolo
09/03/2024

Se si sta tentando di importare dati in Riconoscimento entità denominata, è necessario rispettare un formato specifico. Se non si dispone di dati da importare, è possibile creare il progetto e usare Language Studio per etichettare i documenti.

Formato del file delle etichette

Il file delle etichette deve avere il json formato indicato di seguito per poter essere usato per l’importazione di etichette in un progetto.

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Chiave	Segnaposto	Valore	Esempio
`multilingual`	`true`	Valore booleano che consente l’inclusione di documenti in diverse lingue nel set di dati; quando il modello viene distribuito, è possibile eseguire query sul modello in qualunque lingua supportata (non necessariamente inclusa nei documenti di training). Per altre informazioni sul supporto multilingue, vedere Supporto lingue.	`true`
`projectName`	`{PROJECT-NAME}`	Nome progetto	`myproject`
storageInputContainerName	`{CONTAINER-NAME}`	Nome contenitore	`mycontainer`
`entities`		Array contenente tutti i tipi di entità inclusi nel progetto. Sono i tipi di entità che verranno estratti dai documenti.
`documents`		Array contenente tutti i documenti nel progetto e l'elenco delle entità etichettate all'interno di ogni documento.	[]
`location`	`{DOCUMENT-NAME}`	Posizione dei documenti nel contenitore di archiviazione. Siccome tutti i documenti sono inclusi nella radice del contenitore, deve essere il nome del documento.	`doc1.txt`
`dataset`	`{DATASET}`	Il set di test a cui verrà sottoposto questo file quando verrà diviso prima del training. Altre informazioni sulla suddivisione dei dati sono disponibili qui. I valori possibili per questo campo sono `Train` e `Test`.	`Train`
`regionOffset`		La posizione del carattere inclusivo dell'inizio del testo.	`0`
`regionLength`		La lunghezza del rettangolo di selezione in termini di caratteri UTF16. Il training considera solo i dati in quest’area.	`500`
`category`		Il tipo di entità associata all'intervallo di testo specificato.	`Entity1`
`offset`		La posizione iniziale per il testo dell'entità.	`25`
`length`		La lunghezza dell’entità in termini di caratteri UTF16.	`20`
`language`	`{LANGUAGE-CODE}`	Una stringa che specifica il codice lingua per il documento usato nel progetto. Se il progetto è un progetto multilingue, scegliere il codice lingua della maggior parte dei documenti. Per altre informazioni sui codici lingua supportati, vedere Supporto lingue.	`en-us`

Passaggi successivi

È possibile importare direttamente i dati etichettati nel progetto. Informazioni su come importare un progetto
Per altre informazioni sull’etichettatura dei dati, vedere l’articolo esplicativo. Dopo aver etichettato i dati, è possibile eseguire il training del modello.

Condividi tramite

Formati di dati Riconoscimento entità denominata personalizzati accettati

Formato del file delle etichette

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive