Než začnete používat vlastní klasifikaci textu, budete potřebovat prostředek Azure AI Language. Doporučujeme vytvořit prostředek jazyka a připojit k němu účet úložiště na webu Azure Portal. Vytvoření prostředku na webu Azure Portal umožňuje vytvořit účet úložiště Azure současně se všemi požadovanými oprávněními předem nakonfigurovanými. Dále si můžete přečíst v článku, kde se dozvíte, jak používat existující prostředek, a nakonfigurovat ho tak, aby fungoval s vlastní klasifikací textu.
Budete také potřebovat účet úložiště Azure, kde nahrajete .txt dokumenty, které se použijí k trénování modelu pro klasifikaci textu.
Poznámka:
K vytvoření prostředku jazyka musíte mít přiřazenou roli vlastníka ve skupině prostředků.
Pokud připojíte existující účet úložiště, měli byste k němu mít přiřazenou roli vlastníka .
Vytvoření prostředku jazyka a připojení účtu úložiště
Poznámka:
Účet úložiště byste neměli přesunout do jiné skupiny prostředků nebo předplatného, jakmile je propojený s prostředkem jazyka.
Přejděte na web Azure Portal a vytvořte nový prostředek jazyka Azure AI.
V zobrazeném okně vyberte vlastní klasifikaci textu a rozpoznávání vlastních pojmenovaných entit z vlastních funkcí. Vyberte Pokračovat a vytvořte prostředek v dolní části obrazovky.
Vytvořte prostředek jazyka s následujícími podrobnostmi.
Název
Požadovaná hodnota
Předplatné
Vaše předplatné Azure.
Skupina prostředků
Skupina prostředků, která bude obsahovat váš prostředek. Můžete použít existující nebo vytvořit nový.
Oblast
Jedna z podporovaných oblastí Například "USA – západ 2".
Pokud se zobrazí zpráva"Váš přihlašovací účet není vlastníkem skupiny prostředků vybraného účtu úložiště", musí mít váš účet přiřazenou roli vlastníka pro skupinu prostředků, abyste mohli vytvořit prostředek jazyka. Požádejte o pomoc vlastníka předplatného Azure.
Vlastníka předplatného Azure můžete určit vyhledáním vaší skupiny prostředků a následujícím odkazem na přidružené předplatné. Potom:
Výběr karty Řízení přístupu (IAM)
Výběr přiřazení rolí
Filtrovat podle role:Vlastník.
V části Vlastní klasifikace textu a rozpoznávání vlastních pojmenovaných entit vyberte existující účet úložiště nebo vyberte Nový účet úložiště. Všimněte si, že tyto hodnoty vám pomůžou začít, a ne nutně hodnoty účtu úložiště, které budete chtít použít v produkčních prostředích. Abyste se vyhnuli latenci při sestavování projektu, připojte se k účtům úložiště ve stejné oblasti jako prostředek jazyka.
Hodnota účtu úložiště
Doporučená hodnota
Název účtu úložiště
Libovolný název
Storage account type
Standardní LRS
Ujistěte se, že je zaškrtnuté příslušné oznámení O umělé inteligenci. Vyberte Zkontrolovat a vytvořit v dolní části stránky.
Vytvoření nového prostředku jazyka ze sady Language Studio
Pokud se poprvé přihlásíte, zobrazí se v sadě Language Studio okno, které vám umožní zvolit existující prostředek jazyka nebo vytvořit nový. Prostředek můžete vytvořit také tak, že kliknete na ikonu nastavení v pravém horním rohu a vyberete Prostředky a potom kliknete na Vytvořit nový prostředek.
Vytvořte prostředek jazyka s následujícími podrobnostmi.
Při vytváření prostředku jazyka nezapomeňte povolit spravovanou identitu .
Přečtěte si a potvrďte oznámení zodpovědné umělé inteligence.
Pokud chcete použít vlastní klasifikaci textu, budete muset svůj prostředek připojit k účtu úložiště. Pokud ho nemáte, můžete si vytvořit účet úložiště Azure. Pomocí následujících kroků vytvořte svůj první projekt a připojte svůj účet úložiště.
Přihlaste se k sadě Language Studio. Zobrazí se okno, ve které můžete vybrat předplatné a prostředek jazyka. Vyberte prostředek jazyka.
V části Klasifikovat text v sadě Language Studio vyberte Vlastní klasifikaci textu.
V horní nabídce na stránce projektů vyberte Vytvořit nový projekt . Vytvoření projektu vám umožní označovat data, trénovat, vyhodnocovat, vylepšovat a nasazovat modely.
Po kliknutí na možnost Vytvořit nový projekt se zobrazí okno, které vám umožní připojit účet úložiště. Pokud jste už připojili účet úložiště, zobrazí se účet úložiště připojený. Pokud ne, zvolte účet úložiště v rozevíracím seznamu, který se zobrazí, a vyberte Připojit účet úložiště. Tím se nastaví požadované role pro váš účet úložiště. Tento krok pravděpodobně vrátí chybu, pokud nejste v účtu úložiště přiřazeni jako vlastník .
Poznámka:
Tento krok stačí provést jenom jednou pro každý nový prostředek jazyka, který používáte.
Tento proces je nevratný, pokud k prostředku jazyka připojíte účet úložiště, nemůžete ho později odpojit.
Prostředek jazyka můžete připojit pouze k jednomu účtu úložiště.
Vyberte typ projektu. Můžete vytvořit projekt klasifikace více popisků, kde každý dokument může patřit do jedné nebo více tříd nebo projektu klasifikace s jedním popiskem, kde každý dokument může patřit pouze do jedné třídy. Vybraný typ nelze později změnit. Další informace o typech projektů
Zadejte informace o projektu, včetně názvu, popisu a jazyka dokumentů v projektu. Pokud používáte ukázkovou datovou sadu, vyberte angličtinu. Později nebudete moct změnit název projektu. Vyberte Další.
Tip
Vaše datová sada nemusí být úplně ve stejném jazyce. Můžete mít více dokumentů, z nichž každý má různé podporované jazyky. Pokud vaše datová sada obsahuje dokumenty různých jazyků nebo pokud očekáváte text z různých jazyků během běhu, vyberte možnost povolit vícejazyčnou datovou sadu , když zadáte základní informace o projektu. Tuto možnost můžete povolit později na stránce Nastavení projektu.
Vyberte kontejner, do kterého jste datovou sadu nahráli.
Poznámka:
Pokud jste už data označili popiskem, ujistěte se, že se řídí podporovaným formátem , a vyberte Ano, dokumenty jsou už označené a mám formátovaný soubor popisků JSON a v rozevírací nabídce níže vyberte soubor štítků.
Pokud používáte některou z ukázkových datových sad, použijte zahrnutý webOfScience_labelsFile soubor nebo movieLabels soubor JSON. Pak vyberte Další.
Zkontrolujte zadaná data a vyberte Vytvořit projekt.
Proces připojení účtu úložiště k vašemu prostředku jazyka je nevratný, nejde ho později odpojit.
Prostředek jazyka můžete připojit pouze k jednomu účtu úložiště.
Použití existujícího prostředku jazyka
Požadavek
Popis
Oblasti
Ujistěte se, že je váš existující prostředek zřízený v jedné z podporovaných oblastí. Pokud prostředek nemáte, budete muset vytvořit nový v podporované oblasti.
V nabídce na levé straně v části Správa prostředků vyberte Funkce.
Povolení vlastní klasifikace textu / funkce Rozpoznávání vlastních pojmenovaných entit
Připojení účtu úložiště
Výběr možnosti Použít
Důležité
Ujistěte se, že váš prostředek jazyka má přiřazenou roli přispěvatele dat objektů blob úložiště v účtu úložiště, který se připojujete.
Nastavení rolí pro prostředek Azure AI Language a účet úložiště
Pomocí následujícího postupu nastavte požadované role pro váš prostředek jazyka a účet úložiště.
Role pro prostředek Azure AI Language
Na webu Azure Portal přejděte ke svému účtu úložiště nebo prostředku jazyka.
V levé navigační nabídce vyberte Řízení přístupu (IAM ).
Vyberte Přidat přiřazení rolí a zvolte odpovídající roli pro váš účet.
K prostředku jazyka byste měli mít přiřazenou roli vlastníka nebo přispěvatele .
V části Přiřadit přístup vyberte Uživatele, skupinu nebo instanční objekt.
Vybrat členy
Vyberte své uživatelské jméno. V poli Vybrat můžete hledat uživatelská jména. Tento postup opakujte pro všechny role.
Tento postup opakujte pro všechny uživatelské účty, které potřebují přístup k tomuto prostředku.
Role pro váš účet úložiště
Na webu Azure Portal přejděte na stránku svého účtu úložiště.
V levé navigační nabídce vyberte Řízení přístupu (IAM ).
Vyberte Přidat přiřazení rolí a zvolte roli Přispěvatel dat objektů blob úložiště v účtu úložiště.
V rámci možnosti Přiřadit přístup vyberte spravovanou identitu.
Vybrat členy
Vyberte své předplatné a jako spravovanou identitu vyberte jazyk . V poli Vybrat můžete hledat uživatelská jména.
Důležité
Pokud máte virtuální síť nebo privátní koncový bod, nezapomeňte v seznamu důvěryhodných služeb vybrat možnost Povolit službám Azure přístup k tomuto účtu úložiště na webu Azure Portal.
Povolení CORS pro účet úložiště
Při povolování sdílení prostředků mezi zdroji (CORS) nezapomeňte povolit metody GET, PUT, DELETE.
Nastavte povolené pole původu na https://language.cognitive.azure.comhodnotu . Povolit všechna záhlaví přidáním * do povolených hodnot záhlaví a nastavit maximální věk na 500.
Vytvoření vlastního projektu klasifikace textu
Po nakonfigurování prostředku a kontejneru úložiště vytvořte nový projekt vlastní klasifikace textu. Projekt je pracovní oblast pro vytváření vlastních modelů AI na základě vašich dat. K vašemu projektu může přistupovat jenom vy a ostatní, kteří mají přístup k používanému prostředku Azure. Pokud máte označená data, můžete je importovat, abyste mohli začít.
Přihlaste se k sadě Language Studio. Zobrazí se okno, ve které můžete vybrat předplatné a prostředek jazyka. Vyberte prostředek jazyka.
V části Klasifikovat text v sadě Language Studio vyberte Vlastní klasifikaci textu.
V horní nabídce na stránce projektů vyberte Vytvořit nový projekt . Vytvoření projektu vám umožní označovat data, trénovat, vyhodnocovat, vylepšovat a nasazovat modely.
Po kliknutí na možnost Vytvořit nový projekt se zobrazí okno, které vám umožní připojit účet úložiště. Pokud jste už připojili účet úložiště, zobrazí se účet úložiště připojený. Pokud ne, zvolte účet úložiště v rozevíracím seznamu, který se zobrazí, a vyberte Připojit účet úložiště. Tím se nastaví požadované role pro váš účet úložiště. Tento krok pravděpodobně vrátí chybu, pokud nejste v účtu úložiště přiřazeni jako vlastník .
Poznámka:
Tento krok stačí provést jenom jednou pro každý nový prostředek jazyka, který používáte.
Tento proces je nevratný, pokud k prostředku jazyka připojíte účet úložiště, nemůžete ho později odpojit.
Prostředek jazyka můžete připojit pouze k jednomu účtu úložiště.
Vyberte typ projektu. Můžete vytvořit projekt klasifikace více popisků, kde každý dokument může patřit do jedné nebo více tříd nebo projektu klasifikace s jedním popiskem, kde každý dokument může patřit pouze do jedné třídy. Vybraný typ nelze později změnit. Další informace o typech projektů
Zadejte informace o projektu, včetně názvu, popisu a jazyka dokumentů v projektu. Pokud používáte ukázkovou datovou sadu, vyberte angličtinu. Později nebudete moct změnit název projektu. Vyberte Další.
Tip
Vaše datová sada nemusí být úplně ve stejném jazyce. Můžete mít více dokumentů, z nichž každý má různé podporované jazyky. Pokud vaše datová sada obsahuje dokumenty různých jazyků nebo pokud očekáváte text z různých jazyků během běhu, vyberte možnost povolit vícejazyčnou datovou sadu , když zadáte základní informace o projektu. Tuto možnost můžete povolit později na stránce Nastavení projektu.
Vyberte kontejner, do kterého jste datovou sadu nahráli.
Poznámka:
Pokud jste už data označili popiskem, ujistěte se, že se řídí podporovaným formátem , a vyberte Ano, dokumenty jsou už označené a mám formátovaný soubor popisků JSON a v rozevírací nabídce níže vyberte soubor štítků.
Pokud používáte některou z ukázkových datových sad, použijte zahrnutý webOfScience_labelsFile soubor nebo movieLabels soubor JSON. Pak vyberte Další.
Zkontrolujte zadaná data a vyberte Vytvořit projekt.
Pokud chcete začít vytvářet vlastní model klasifikace textu, musíte vytvořit projekt. Vytvoření projektu vám umožní označovat data, trénovat, vyhodnocovat, vylepšovat a nasazovat modely.
Poznámka:
V názvu projektu se rozlišují malá a velká písmena pro všechny operace.
K vytvoření projektu vytvořte požadavek PATCH pomocí následující adresy URL, hlaviček a textu JSON.
Adresa URL požadavku
K vytvoření projektu použijte následující adresu URL. Nahraďte níže uvedené zástupné hodnoty vlastními hodnotami.
Název projektu. U této hodnoty se rozlišují malá a velká písmena.
myProject
{API-VERSION}
Verze rozhraní API, které voláte. Hodnota, na kterou se zde odkazuje, je určená pro nejnovější vydané verze. Další informace o dalších dostupných verzích rozhraní API najdete v tématu Životní cyklus modelu.
2022-05-01
Hlavičky
K ověření požadavku použijte následující hlavičku.
Key
Hodnota
Ocp-Apim-Subscription-Key
Klíč k vašemu prostředku. Používá se k ověřování požadavků rozhraní API.
Text
V požadavku použijte následující kód JSON. Nahraďte níže uvedené zástupné hodnoty vlastními hodnotami.
Logická hodnota, která umožňuje mít v datové sadě dokumenty ve více jazycích a při nasazení modelu můžete dotazovat model v libovolném podporovaném jazyce (nemusí nutně být součástí trénovacích dokumentů). Další informace o podpoře více jazyků najdete v podpoře jazyků.
true
storageInputContainerName
{CONTAINER-NAME}
Název kontejneru úložiště Azure, do kterého jste dokumenty nahráli.
Logická hodnota, která umožňuje mít v datové sadě dokumenty ve více jazycích a při nasazení modelu můžete dotazovat model v libovolném podporovaném jazyce (nemusí nutně být součástí trénovacích dokumentů). Další informace o podpoře více jazyků najdete v podpoře jazyků.
true
storageInputContainerName
{CONTAINER-NAME}
Název kontejneru úložiště Azure, do kterého jste dokumenty nahráli.
myContainer
Tento požadavek vrátí odpověď 201, což znamená, že se projekt vytvoří.
Tento požadavek vrátí chybu, pokud:
Vybraný prostředek nemá pro účet úložiště správná oprávnění.
Import vlastního projektu klasifikace textu
Pokud jste už data označili jako označená, můžete je použít k zahájení práce se službou. Ujistěte se, že vaše označená data se řídí přijatými formáty dat.
Přihlaste se k sadě Language Studio. Zobrazí se okno, ve které můžete vybrat předplatné a prostředek jazyka. Vyberte prostředek jazyka.
V části Klasifikovat text v sadě Language Studio vyberte Vlastní klasifikaci textu.
V horní nabídce na stránce projektů vyberte Vytvořit nový projekt . Vytvoření projektu vám umožní označovat data, trénovat, vyhodnocovat, vylepšovat a nasazovat modely.
Po výběru možnosti Vytvořit nový projekt se zobrazí obrazovka, která vám umožní připojit účet úložiště. Pokud nemůžete najít účet úložiště, ujistěte se, že jste vytvořili prostředek pomocí doporučených kroků. Pokud jste už připojili účet úložiště k vašemu prostředku jazyka, uvidíte připojený účet úložiště.
Poznámka:
Tento krok stačí provést jenom jednou pro každý nový prostředek jazyka, který používáte.
Tento proces je nevratný, pokud k prostředku jazyka připojíte účet úložiště, nemůžete ho později odpojit.
Prostředek jazyka můžete připojit pouze k jednomu účtu úložiště.
Vyberte typ projektu. Můžete vytvořit projekt klasifikace více popisků, kde každý dokument může patřit do jedné nebo více tříd nebo projektu klasifikace s jedním popiskem, kde každý dokument může patřit pouze do jedné třídy. Vybraný typ nelze později změnit.
Zadejte informace o projektu, včetně názvu, popisu a jazyka dokumentů v projektu. Později nebudete moct změnit název projektu. Vyberte Další.
Tip
Vaše datová sada nemusí být úplně ve stejném jazyce. Můžete mít více dokumentů, z nichž každý má různé podporované jazyky. Pokud vaše datová sada obsahuje dokumenty různých jazyků nebo pokud očekáváte text z různých jazyků během běhu, vyberte možnost povolit vícejazyčnou datovou sadu , když zadáte základní informace o projektu. Tuto možnost můžete povolit později na stránce Nastavení projektu.
Vyberte kontejner, do kterého jste datovou sadu nahráli.
Vyberte Ano, dokumenty jsou už označené a mám formátovaný soubor popisků JSON a v rozevírací nabídce níže vyberte soubor popisků a naimportujte soubor štítků JSON. Ujistěte se, že se řídí podporovaným formátem.
Vyberte Další.
Zkontrolujte zadaná data a vyberte Vytvořit projekt.
Odešlete požadavek POST pomocí následující adresy URL, hlaviček a textu JSON pro import souboru štítků. Ujistěte se, že soubor štítků dodržuje akceptované formátování.
Pokud projekt se stejným názvem již existuje, nahradí se data tohoto projektu.
Název projektu. U této hodnoty se rozlišují malá a velká písmena.
myProject
{API-VERSION}
Verze rozhraní API, které voláte. Hodnota, na kterou se zde odkazuje, je určená pro nejnovější vydané verze. Další informace o dalších dostupných verzích rozhraní API
2022-05-01
Hlavičky
K ověření požadavku použijte následující hlavičku.
Key
Hodnota
Ocp-Apim-Subscription-Key
Klíč k vašemu prostředku. Používá se k ověřování požadavků rozhraní API.
Text
V požadavku použijte následující kód JSON. Nahraďte níže uvedené zástupné hodnoty vlastními hodnotami.
Verze rozhraní API, které voláte. Zde použitá verze musí být stejná verze rozhraní API v adrese URL. Další informace o dalších dostupných verzích rozhraní API
2022-05-01
projectName
{PROJECT-NAME}
Název projektu. U této hodnoty se rozlišují malá a velká písmena.
Logická hodnota, která umožňuje mít v datové sadě dokumenty ve více jazycích a při nasazení modelu můžete dotazovat model v libovolném podporovaném jazyce (nemusí nutně být součástí trénovacích dokumentů). Další informace o podpoře více jazyků najdete v podpoře jazyků.
true
storageInputContainerName
{CONTAINER-NAME}
Název kontejneru úložiště Azure, do kterého jste dokumenty nahráli.
myContainer
třídy
[]
Pole obsahující všechny třídy, které máte v projektu. Jedná se o třídy, do které chcete dokumenty klasifikovat.
[]
documents
[]
Pole obsahující všechny dokumenty v projektu a třídy označené pro tento dokument.
[]
location
{DOCUMENT-NAME}
Umístění dokumentů v kontejneru úložiště. Vzhledem k tomu, že všechny dokumenty jsou v kořenovém adresáři kontejneru, měl by to být název dokumentu.
doc1.txt
datová sada
{DATASET}
Testovací sada, na kterou se tento dokument před trénováním rozdělí. Další informace o rozdělení dat najdete v tématu Postup trénování modelu . Možné hodnoty pro toto pole jsou Train a Test.
Logická hodnota, která umožňuje mít v datové sadě dokumenty ve více jazycích a při nasazení modelu můžete dotazovat model v libovolném podporovaném jazyce (nemusí nutně být součástí trénovacích dokumentů). Další informace o podpoře více jazyků najdete v podpoře jazyků.
true
storageInputContainerName
{CONTAINER-NAME}
Název kontejneru úložiště Azure, do kterého jste dokumenty nahráli.
myContainer
třídy
[]
Pole obsahující všechny třídy, které máte v projektu. Jedná se o třídy, do které chcete dokumenty klasifikovat.
[]
documents
[]
Pole obsahující všechny dokumenty v projektu a do které třídy patří tento dokument.
[]
location
{DOCUMENT-NAME}
Umístění dokumentů v kontejneru úložiště. Vzhledem k tomu, že všechny dokumenty jsou v kořenovém adresáři kontejneru, měl by to být název dokumentu.
doc1.txt
datová sada
{DATASET}
Testovací sada, na kterou se tento dokument před trénováním rozdělí. Další informace o rozdělení dat najdete v tématu Jak vytrénovat model . Možné hodnoty pro toto pole jsou Train a Test.
Train
Po odeslání požadavku rozhraní API obdržíte 202 odpověď, která značí, že úloha byla odeslána správně. V hlavičce odpovědi extrahujte operation-location hodnotu. Bude formátován takto:
Na této stránce můžete aktualizovat popis projektu a povolit nebo zakázat vícejazyčnou datovou sadu v nastavení projektu.
Můžete si také prohlédnout připojený účet úložiště a kontejner s prostředkem jazyka.
Primární klíč prostředku můžete načíst také z této stránky.
Pokud chcete získat podrobnosti projektu klasifikace vlastního textu, odešlete požadavek GET pomocí následující adresy URL a hlaviček. Zástupné hodnoty nahraďte vlastními hodnotami.
Tato hodnota může být customSingleLabelClassification nebo customMultiLabelClassification.
storageInputContainerName
{CONTAINER-NAME}
Název kontejneru úložiště Azure, do kterého jste dokumenty nahráli.
myContainer
projectName
{PROJECT-NAME}
Název projektu. U této hodnoty se rozlišují malá a velká písmena.
myProject
multilingual
Logická hodnota, která umožňuje mít v datové sadě dokumenty ve více jazycích. Když je model nasazený, můžete ho dotazovat v libovolném podporovaném jazyce (nemusí být nutně součástí trénovacích dokumentů). Další informace o podpoře více jazyků najdete v tématu podpora jazyků.
Pokud už projekt nepotřebujete, můžete projekt odstranit pomocí sady Language Studio. V horní části vyberte Vlastní klasifikaci textu a pak vyberte projekt, který chcete odstranit. V horní nabídce vyberte Odstranit a projekt odstraňte.
Pokud už projekt nepotřebujete, můžete ho odstranit pomocí následujícího požadavku DELETE . Zástupné hodnoty nahraďte vlastními hodnotami.
Název projektu. U této hodnoty se rozlišují malá a velká písmena.
myProject
{API-VERSION}
Verze rozhraní API, které voláte. Hodnota, na kterou se zde odkazuje, je určená pro nejnovější vydané verze. Další informace o dalších dostupných verzích rozhraní API
2022-05-01
Hlavičky
K ověření požadavku použijte následující hlavičku.
Key
Hodnota
Ocp-Apim-Subscription-Key
Klíč k vašemu prostředku. Používá se k ověřování požadavků rozhraní API.
Po odeslání požadavku rozhraní API obdržíte 202 odpověď s informací o úspěchu, což znamená, že projekt byl odstraněn. Výsledky úspěšného volání se záhlavím Operation-Location sloužícím ke kontrole stavu úlohy.
Další kroky
Měli byste mít představu o schématu projektu, které použijete k označení dat.
Po vytvoření projektu můžete začít popisovat data, která budou informovat model klasifikace textu, jak interpretovat text a jak se používá k trénování a vyhodnocení.