Jak vytvořit vlastní projekt klasifikace textu

V tomto článku se dozvíte, jak nastavit požadavky na zahájení vlastní klasifikace textu a vytvořit projekt.

Požadavky

Než začnete používat vlastní klasifikaci textu, budete potřebovat:

Vytvoření prostředku jazyka

Než začnete používat vlastní klasifikaci textu, budete potřebovat prostředek Azure AI Language. Doporučujeme vytvořit prostředek jazyka a připojit k němu účet úložiště na webu Azure Portal. Vytvoření prostředku na webu Azure Portal umožňuje vytvořit účet úložiště Azure současně se všemi požadovanými oprávněními předem nakonfigurovanými. Dále si můžete přečíst v článku, kde se dozvíte, jak používat existující prostředek, a nakonfigurovat ho tak, aby fungoval s vlastní klasifikací textu.

Budete také potřebovat účet úložiště Azure, kde nahrajete .txt dokumenty, které se použijí k trénování modelu pro klasifikaci textu.

Poznámka:

  • K vytvoření prostředku jazyka musíte mít přiřazenou roli vlastníka ve skupině prostředků.
  • Pokud připojíte existující účet úložiště, měli byste k němu mít přiřazenou roli vlastníka .

Vytvoření prostředku jazyka a připojení účtu úložiště

Poznámka:

Účet úložiště byste neměli přesunout do jiné skupiny prostředků nebo předplatného, jakmile je propojený s prostředkem jazyka.

Vytvoření nového prostředku z webu Azure Portal

  1. Přejděte na web Azure Portal a vytvořte nový prostředek jazyka Azure AI.

  2. V zobrazeném okně vyberte vlastní klasifikaci textu a rozpoznávání vlastních pojmenovaných entit z vlastních funkcí. Vyberte Pokračovat a vytvořte prostředek v dolní části obrazovky.

    Snímek obrazovky znázorňující možnost výběru pro vlastní klasifikaci textu a rozpoznávání vlastních pojmenovaných entit na webu Azure Portal

  3. Vytvořte prostředek jazyka s následujícími podrobnostmi.

    Název Požadovaná hodnota
    Předplatné Vaše předplatné Azure.
    Skupina prostředků Skupina prostředků, která bude obsahovat váš prostředek. Můžete použít existující nebo vytvořit nový.
    Oblast Jedna z podporovaných oblastí Například "USA – západ 2".
    Název Název vašeho prostředku
    Cenová úroveň Jedna z podporovaných cenových úrovní Službu můžete vyzkoušet pomocí úrovně Free (F0).

    Pokud se zobrazí zpráva"Váš přihlašovací účet není vlastníkem skupiny prostředků vybraného účtu úložiště", musí mít váš účet přiřazenou roli vlastníka pro skupinu prostředků, abyste mohli vytvořit prostředek jazyka. Požádejte o pomoc vlastníka předplatného Azure.

    Vlastníka předplatného Azure můžete určit vyhledáním vaší skupiny prostředků a následujícím odkazem na přidružené předplatné. Potom:

    1. Výběr karty Řízení přístupu (IAM)
    2. Výběr přiřazení rolí
    3. Filtrovat podle role:Vlastník.
  4. V části Vlastní klasifikace textu a rozpoznávání vlastních pojmenovaných entit vyberte existující účet úložiště nebo vyberte Nový účet úložiště. Všimněte si, že tyto hodnoty vám pomůžou začít, a ne nutně hodnoty účtu úložiště, které budete chtít použít v produkčních prostředích. Abyste se vyhnuli latenci při sestavování projektu, připojte se k účtům úložiště ve stejné oblasti jako prostředek jazyka.

    Hodnota účtu úložiště Doporučená hodnota
    Název účtu úložiště Libovolný název
    Storage account type Standardní LRS
  5. Ujistěte se, že je zaškrtnuté příslušné oznámení O umělé inteligenci. Vyberte Zkontrolovat a vytvořit v dolní části stránky.

Poznámka:

  • Proces připojení účtu úložiště k vašemu prostředku jazyka je nevratný, nejde ho později odpojit.
  • Prostředek jazyka můžete připojit pouze k jednomu účtu úložiště.

Použití existujícího prostředku jazyka

Požadavek Popis
Oblasti Ujistěte se, že je váš existující prostředek zřízený v jedné z podporovaných oblastí. Pokud prostředek nemáte, budete muset vytvořit nový v podporované oblasti.
Cenová úroveň Cenová úroveň vašeho prostředku.
Spravovaná identita Ujistěte se, že je povolené nastavení spravované identity prostředku. V opačném případě si přečtěte další část.

Pokud chcete použít vlastní klasifikaci textu, budete muset vytvořit účet úložiště Azure, pokud ho ještě nemáte.

Povolení správy identit pro prostředek

Váš prostředek jazyka musí mít správu identit, aby ho bylo možné povolit pomocí webu Azure Portal:

  1. Přechod na prostředek jazyka
  2. V nabídce vlevo v části Správa prostředků vyberte Identita.
  3. Na kartě Přiřazený systém nezapomeňte nastavit stav na Zapnuto.

Povolení funkce vlastní klasifikace textu

Nezapomeňte na webu Azure Portal povolit vlastní klasifikaci textu nebo funkci Rozpoznávání vlastních pojmenovaných entit.

  1. Přechod na prostředek jazyka na webu Azure Portal
  2. V nabídce na levé straně v části Správa prostředků vyberte Funkce.
  3. Povolení vlastní klasifikace textu / funkce Rozpoznávání vlastních pojmenovaných entit
  4. Připojení účtu úložiště
  5. Výběr možnosti Použít

Důležité

  • Ujistěte se, že váš prostředek jazyka má přiřazenou roli přispěvatele dat objektů blob úložiště v účtu úložiště, který se připojujete.

Nastavení rolí pro prostředek Azure AI Language a účet úložiště

Pomocí následujícího postupu nastavte požadované role pro váš prostředek jazyka a účet úložiště.

Animovaný obrázek znázorňující, jak nastavit role na webu Azure Portal

Role pro prostředek Azure AI Language

  1. Na webu Azure Portal přejděte ke svému účtu úložiště nebo prostředku jazyka.

  2. V levé navigační nabídce vyberte Řízení přístupu (IAM ).

  3. Vyberte Přidat přiřazení rolí a zvolte odpovídající roli pro váš účet.

    K prostředku jazyka byste měli mít přiřazenou roli vlastníka nebo přispěvatele .

  4. V části Přiřadit přístup vyberte Uživatele, skupinu nebo instanční objekt.

  5. Vybrat členy

  6. Vyberte své uživatelské jméno. V poli Vybrat můžete hledat uživatelská jména. Tento postup opakujte pro všechny role.

  7. Tento postup opakujte pro všechny uživatelské účty, které potřebují přístup k tomuto prostředku.

Role pro váš účet úložiště

  1. Na webu Azure Portal přejděte na stránku svého účtu úložiště.
  2. V levé navigační nabídce vyberte Řízení přístupu (IAM ).
  3. Vyberte Přidat přiřazení rolí a zvolte roli Přispěvatel dat objektů blob úložiště v účtu úložiště.
  4. V rámci možnosti Přiřadit přístup vyberte spravovanou identitu.
  5. Vybrat členy
  6. Vyberte své předplatné a jako spravovanou identitu vyberte jazyk . V poli Vybrat můžete hledat uživatelská jména.

Důležité

Pokud máte virtuální síť nebo privátní koncový bod, nezapomeňte v seznamu důvěryhodných služeb vybrat možnost Povolit službám Azure přístup k tomuto účtu úložiště na webu Azure Portal.

Povolení CORS pro účet úložiště

Při povolování sdílení prostředků mezi zdroji (CORS) nezapomeňte povolit metody GET, PUT, DELETE. Nastavte povolené pole původu na https://language.cognitive.azure.comhodnotu . Povolit všechna záhlaví přidáním * do povolených hodnot záhlaví a nastavit maximální věk na 500.

Snímek obrazovky znázorňující použití CORS pro účty úložiště

Vytvoření vlastního projektu klasifikace textu

Po nakonfigurování prostředku a kontejneru úložiště vytvořte nový projekt vlastní klasifikace textu. Projekt je pracovní oblast pro vytváření vlastních modelů AI na základě vašich dat. K vašemu projektu může přistupovat jenom vy a ostatní, kteří mají přístup k používanému prostředku Azure. Pokud máte označená data, můžete je importovat, abyste mohli začít.

  1. Přihlaste se k sadě Language Studio. Zobrazí se okno, ve které můžete vybrat předplatné a prostředek jazyka. Vyberte prostředek jazyka.

  2. V části Klasifikovat text v sadě Language Studio vyberte Vlastní klasifikaci textu.

    Snímek obrazovky znázorňující umístění vlastní klasifikace textu na cílové stránce sady Language Studio

  3. V horní nabídce na stránce projektů vyberte Vytvořit nový projekt . Vytvoření projektu vám umožní označovat data, trénovat, vyhodnocovat, vylepšovat a nasazovat modely.

    Snímek obrazovky se stránkou pro vytvoření vlastního projektu klasifikace textu

  4. Po kliknutí na možnost Vytvořit nový projekt se zobrazí okno, které vám umožní připojit účet úložiště. Pokud jste už připojili účet úložiště, zobrazí se účet úložiště připojený. Pokud ne, zvolte účet úložiště v rozevíracím seznamu, který se zobrazí, a vyberte Připojit účet úložiště. Tím se nastaví požadované role pro váš účet úložiště. Tento krok pravděpodobně vrátí chybu, pokud nejste v účtu úložiště přiřazeni jako vlastník .

    Poznámka:

    • Tento krok stačí provést jenom jednou pro každý nový prostředek jazyka, který používáte.
    • Tento proces je nevratný, pokud k prostředku jazyka připojíte účet úložiště, nemůžete ho později odpojit.
    • Prostředek jazyka můžete připojit pouze k jednomu účtu úložiště.

    Snímek obrazovky připojení k úložišti pro projekty vlastní klasifikace

  5. Vyberte typ projektu. Můžete vytvořit projekt klasifikace více popisků, kde každý dokument může patřit do jedné nebo více tříd nebo projektu klasifikace s jedním popiskem, kde každý dokument může patřit pouze do jedné třídy. Vybraný typ nelze později změnit. Další informace o typech projektů

    Snímek obrazovky s dostupnými typy projektů vlastní klasifikace

  6. Zadejte informace o projektu, včetně názvu, popisu a jazyka dokumentů v projektu. Pokud používáte ukázkovou datovou sadu, vyberte angličtinu. Později nebudete moct změnit název projektu. Vyberte Další.

    Tip

    Vaše datová sada nemusí být úplně ve stejném jazyce. Můžete mít více dokumentů, z nichž každý má různé podporované jazyky. Pokud vaše datová sada obsahuje dokumenty různých jazyků nebo pokud očekáváte text z různých jazyků během běhu, vyberte možnost povolit vícejazyčnou datovou sadu , když zadáte základní informace o projektu. Tuto možnost můžete povolit později na stránce Nastavení projektu.

  7. Vyberte kontejner, do kterého jste datovou sadu nahráli.

    Poznámka:

    Pokud jste už data označili popiskem, ujistěte se, že se řídí podporovaným formátem , a vyberte Ano, dokumenty jsou už označené a mám formátovaný soubor popisků JSON a v rozevírací nabídce níže vyberte soubor štítků.

    Pokud používáte některou z ukázkových datových sad, použijte zahrnutý webOfScience_labelsFile soubor nebo movieLabels soubor JSON. Pak vyberte Další.

  8. Zkontrolujte zadaná data a vyberte Vytvořit projekt.

Import vlastního projektu klasifikace textu

Pokud jste už data označili jako označená, můžete je použít k zahájení práce se službou. Ujistěte se, že vaše označená data se řídí přijatými formáty dat.

  1. Přihlaste se k sadě Language Studio. Zobrazí se okno, ve které můžete vybrat předplatné a prostředek jazyka. Vyberte prostředek jazyka.

  2. V části Klasifikovat text v sadě Language Studio vyberte Vlastní klasifikaci textu.

    Snímek obrazovky znázorňující umístění vlastní klasifikace textu na cílové stránce sady Language Studio

  3. V horní nabídce na stránce projektů vyberte Vytvořit nový projekt . Vytvoření projektu vám umožní označovat data, trénovat, vyhodnocovat, vylepšovat a nasazovat modely.

    Snímek obrazovky se stránkou pro vytvoření projektu

  4. Po výběru možnosti Vytvořit nový projekt se zobrazí obrazovka, která vám umožní připojit účet úložiště. Pokud nemůžete najít účet úložiště, ujistěte se, že jste vytvořili prostředek pomocí doporučených kroků. Pokud jste už připojili účet úložiště k vašemu prostředku jazyka, uvidíte připojený účet úložiště.

    Poznámka:

    • Tento krok stačí provést jenom jednou pro každý nový prostředek jazyka, který používáte.
    • Tento proces je nevratný, pokud k prostředku jazyka připojíte účet úložiště, nemůžete ho později odpojit.
    • Prostředek jazyka můžete připojit pouze k jednomu účtu úložiště.

    Snímek obrazovky připojení k úložišti pro projekty vlastní klasifikace

  5. Vyberte typ projektu. Můžete vytvořit projekt klasifikace více popisků, kde každý dokument může patřit do jedné nebo více tříd nebo projektu klasifikace s jedním popiskem, kde každý dokument může patřit pouze do jedné třídy. Vybraný typ nelze později změnit.

    Snímek obrazovky s dostupnými typy projektů vlastní klasifikace

  6. Zadejte informace o projektu, včetně názvu, popisu a jazyka dokumentů v projektu. Později nebudete moct změnit název projektu. Vyberte Další.

    Tip

    Vaše datová sada nemusí být úplně ve stejném jazyce. Můžete mít více dokumentů, z nichž každý má různé podporované jazyky. Pokud vaše datová sada obsahuje dokumenty různých jazyků nebo pokud očekáváte text z různých jazyků během běhu, vyberte možnost povolit vícejazyčnou datovou sadu , když zadáte základní informace o projektu. Tuto možnost můžete povolit později na stránce Nastavení projektu.

  7. Vyberte kontejner, do kterého jste datovou sadu nahráli.

  8. Vyberte Ano, dokumenty jsou už označené a mám formátovaný soubor popisků JSON a v rozevírací nabídce níže vyberte soubor popisků a naimportujte soubor štítků JSON. Ujistěte se, že se řídí podporovaným formátem.

  9. Vyberte Další.

  10. Zkontrolujte zadaná data a vyberte Vytvořit projekt.

Získání podrobností o projektu

  1. V sadě Language Studio přejděte na stránku nastavení projektu.

  2. Zobrazí se podrobnosti o projektu.

  3. Na této stránce můžete aktualizovat popis projektu a povolit nebo zakázat vícejazyčnou datovou sadu v nastavení projektu.

  4. Můžete si také prohlédnout připojený účet úložiště a kontejner s prostředkem jazyka.

  5. Primární klíč prostředku můžete načíst také z této stránky.

    Snímek obrazovky se stránkou nastavení projektu

Odstranit projekt

Pokud už projekt nepotřebujete, můžete projekt odstranit pomocí sady Language Studio. V horní části vyberte Vlastní klasifikaci textu a pak vyberte projekt, který chcete odstranit. V horní nabídce vyberte Odstranit a projekt odstraňte.

Další kroky

  • Měli byste mít představu o schématu projektu, které použijete k označení dat.

  • Po vytvoření projektu můžete začít popisovat data, která budou informovat model klasifikace textu, jak interpretovat text a jak se používá k trénování a vyhodnocení.