Přijaté formáty dat

Pokud se pokoušíte importovat data do vlastní klasifikace textu, musí se řídit určitým formátem. Pokud nemáte data k importu, můžete vytvořit projekt a použít Language Studio k označení dokumentů.

Formát souboru popisků

Soubor Štítky by měl být ve json formátu níže. To vám umožní importovat popisky do projektu.

{
    "projectFileVersion": "2022-05-01",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
        "projectKind": "CustomMultiLabelClassification",
        "storageInputContainerName": "{CONTAINER-NAME}",
        "projectName": "{PROJECT-NAME}",
        "multilingual": false,
        "description": "Project-description",
        "language": "en-us"
    },
    "assets": {
        "projectKind": "CustomMultiLabelClassification",
        "classes": [
            {
                "category": "Class1"
            },
            {
                "category": "Class2"
            }
        ],
        "documents": [
            {
                "location": "{DOCUMENT-NAME}",
                "language": "{LANGUAGE-CODE}",
                "dataset": "{DATASET}",
                "classes": [
                    {
                        "category": "Class1"
                    },
                    {
                        "category": "Class2"
                    }
                ]
            }
        ]
    }
}
Klíč Zástupný symbol Hodnota Příklad
mnohojazyčný true Logická hodnota, která umožňuje mít v datové sadě dokumenty ve více jazycích a při nasazení modelu můžete dotazovat model v libovolném podporovaném jazyce (nemusí nutně být součástí trénovacích dokumentů). Další informace o podpoře více jazyků najdete v podpoře jazyků. true
projectName {PROJECT-NAME} Název projektu můj projekt
storageInputContainerName {CONTAINER-NAME} Název kontejneru mycontainer
třídy [] Pole obsahující všechny třídy, které máte v projektu. Jedná se o třídy, do které chcete dokumenty klasifikovat. []
documents [] Pole obsahující všechny dokumenty v projektu a třídy označené pro tento dokument. []
location {DOCUMENT-NAME} Umístění dokumentů v kontejneru úložiště. Vzhledem k tomu, že všechny dokumenty jsou v kořenovém adresáři kontejneru, měla by tato hodnota být název dokumentu. doc1.txt
datová sada {DATASET} Testovací sada, na kterou tento soubor přejde při rozdělení před trénováním. Další informace najdete v tématu Jak vytrénovat model . Možné hodnoty pro toto pole jsou Train a Test. Train

Další kroky

  • Data s popisky můžete do projektu importovat přímo. Další informace o importu projektů najdete v tématu Vytvoření projektu .
  • Další informace o označování dat najdete v článku s postupy. Až budete mít popisky dat, můžete model vytrénovat.