Nastavení projektu popisků textu a exportu popisků

Ve službě Azure Machine Learning se naučíte vytvářet a spouštět projekty popisování dat, které budou popisovat textová data. Zadejte jeden popisek nebo více popisků, které se mají použít pro každou textovou položku.

K vytvoření projektu popisování obrázků můžete použít také nástroj pro popisky dat ve službě Azure Machine Learning.

Možnosti popisování textu

Popisování dat ve službě Azure Machine Learning je nástroj, který můžete použít k vytváření, správě a monitorování projektů popisování dat. Použijte ji k následujícím akcím:

  • Koordinujte data, popisky a členy týmu a efektivně spravujte úkoly popisování.
  • Sledujte průběh a udržujte frontu nedokončených úkolů popisování.
  • Spusťte a zastavte projekt a určete průběh popisování.
  • Zkontrolujte a exportujte označená data jako datovou sadu Azure Machine Learning.

Důležité

Textová data, se kterými pracujete v nástroji pro popisování dat ve službě Azure Machine Learning, musí být dostupná v úložišti dat Azure Blob Storage. Pokud nemáte existující úložiště dat, můžete datové soubory nahrát do nového úložiště dat při vytváření projektu.

Pro textová data jsou k dispozici tyto formáty dat:

  • .txt: Každý soubor představuje jednu položku, která má být označena.
  • .csv nebo .tsv: Každý řádek představuje jednu položku, která se zobrazí popisku. Rozhodnete se, které sloupce popisovač uvidí, když tento řádek označí.

Požadavky

Tyto položky slouží k nastavení popisků textu ve službě Azure Machine Learning:

  • Data, která chcete označit, buď v místních souborech, nebo ve službě Azure Blob Storage.
  • Sada popisků, které chcete použít.
  • Pokyny pro označování.
  • Předplatné Azure. Pokud ještě nemáte předplatné Azure, vytvořte si napřed bezplatný účet.
  • Pracovní prostor služby Azure Machine Learning. Viz Vytvoření pracovního prostoru Azure Machine Learning.

Vytvoření projektu s popisky textu

Projekty popisování se spravují ve službě Azure Machine Learning. Ke správě projektů použijte stránku Popisování dat ve službě Machine Learning.

Pokud už jsou vaše data ve službě Azure Blob Storage, před vytvořením projektu popisků se ujistěte, že jsou k dispozici jako úložiště dat.

  1. Pokud chcete vytvořit projekt, vyberte Přidat projekt.

  2. Jako název projektu zadejte název projektu.

    Název projektu nemůžete znovu použít, i když projekt odstraníte.

  3. Pokud chcete vytvořit projekt popisků textu, jako typ média vyberte Text.

  4. U typu úlohy Popisování vyberte možnost pro váš scénář:

    • Pokud chcete pro každou část textu ze sady popisků použít pouze jeden popisek , vyberte Více tříd Klasifikace textu.
    • Pokud chcete u každého textu ze sady popisků použít jeden nebo více popisků, vyberte Více popisek Klasifikace textu.
    • Pokud chcete popisky použít u jednotlivých textových slov nebo u více textových slov v každé položce, vyberte Rozpoznávání pojmenovaných entit.

    Snímek obrazovky znázorňující vytvoření projektu popisování textu

  5. Pokračujte výběrem tlačítka Další.

Přidání pracovníků (volitelné)

Vyberte Použít společnost popisující dodavatele z Azure Marketplace jenom v případě, že jste zapsali společnost popisující data z Azure Marketplace. Pak vyberte dodavatele. Pokud se váš dodavatel v seznamu nezobrazí, zrušte zaškrtnutí této možnosti.

Ujistěte se, že jste nejprve kontaktovali dodavatele a podepsali smlouvu. Další informace najdete v tématu Práce s dodavatelem popisků dat (Preview).

Pokračujte výběrem tlačítka Další.

Výběr nebo vytvoření datové sady

Pokud jste už vytvořili datovou sadu, která obsahuje vaše data, vyberte ji v rozevíracím seznamu Vybrat existující datovou sadu . Můžete také vybrat možnost Vytvořit datovou sadu pro použití existujícího úložiště dat Azure nebo nahrát místní soubory.

Poznámka:

Projekt nemůže obsahovat více než 500 000 souborů. Pokud vaše datová sada překročí tento počet souborů, načtou se jenom prvních 500 000 souborů.

Vytvoření datové sady z úložiště dat Azure

V mnoha případech můžete nahrát místní soubory. Průzkumník služby Azure Storage ale poskytuje rychlejší a robustnější způsob přenosu velkého množství dat. Jako výchozí způsob přesouvání souborů doporučujeme Průzkumník služby Storage.

Vytvoření datové sady z dat, která jsou už uložená ve službě Blob Storage:

  1. Vyberte Vytvořit.
  2. Jako název zadejte název datové sady. Volitelně můžete zadat popis.
  3. Zvolte typ datové sady:
    • Pokud používáte soubor .csv nebo .tsv a každý řádek obsahuje odpověď, vyberte Tabulkový.
    • Pokud pro každou odpověď používáte samostatné soubory .txt , vyberte Soubor.
  4. Vyberte Další.
  5. Vyberte Z úložiště Azure a pak vyberte Další.
  6. Vyberte úložiště dat a pak vyberte Další.
  7. Pokud jsou vaše data v podsložce ve službě Blob Storage, zvolte Procházet a vyberte cestu.
    • Pokud chcete zahrnout všechny soubory do podsložek vybrané cesty, připojte /** se k cestě.
    • Pokud chcete zahrnout všechna data v aktuálním kontejneru a jejích podsložkách, připojte **/*.* se k cestě.
  8. Vyberte Vytvořit.
  9. Vyberte datový asset, který jste vytvořili.

Vytvoření datové sady z nahraných dat

Přímé nahrání dat:

  1. Vyberte Vytvořit.
  2. Jako název zadejte název datové sady. Volitelně můžete zadat popis.
  3. Zvolte typ datové sady:
    • Pokud používáte soubor .csv nebo .tsv a každý řádek obsahuje odpověď, vyberte Tabulkový.
    • Pokud pro každou odpověď používáte samostatné soubory .txt , vyberte Soubor.
  4. Vyberte Další.
  5. Vyberte Z místních souborů a pak vyberte Další.
  6. (Volitelné) Vyberte úložiště dat. Výchozí se nahraje do výchozího úložiště objektů blob (workspaceblobstore) pro váš pracovní prostor Machine Learning.
  7. Vyberte Další.
  8. Vyberte Nahrát>soubory nebo Nahrát složku pro nahrání>a vyberte místní soubory nebo složky, které chcete nahrát.
  9. Vyhledejte soubory nebo složku v okně prohlížeče a pak vyberte Otevřít.
  10. Pokračujte výběrem možnosti Nahrát , dokud nezadáte všechny soubory a složky.
  11. Volitelně zaškrtněte políčko Přepsat, pokud již existuje . Ověřte seznam souborů a složek.
  12. Vyberte Další.
  13. Potvrďte podrobnosti. Výběrem možnosti Zpět upravte nastavení nebo výběrem možnosti Vytvořit vytvořte datovou sadu.
  14. Nakonec vyberte datový asset, který jste vytvořili.

Konfigurace přírůstkové aktualizace

Pokud plánujete do datové sady přidat nové datové soubory, přidejte je do projektu pomocí přírůstkové aktualizace.

Pokud je v pravidelných intervalech nastavená možnost Povolit přírůstkovou aktualizaci, datová sada se pravidelně kontroluje, aby se nové soubory přidávaly do projektu na základě míry dokončování popisků. Kontrola nových dat se zastaví, když projekt obsahuje maximálně 500 000 souborů.

Pokud chcete, aby projekt průběžně monitorovávat nová data v úložišti dat, vyberte Povolit přírůstkovou aktualizaci v pravidelných intervalech .

Zrušte výběr, pokud nechcete, aby se do projektu automaticky přidaly nové soubory v úložišti dat.

Důležité

Pokud je povolená přírůstková aktualizace, nevytvávejte pro datovou sadu, kterou chcete aktualizovat, novou verzi. Pokud ano, aktualizace se nezobrazí, protože projekt popisování dat je připnutý k počáteční verzi. Místo toho použijte Průzkumník služby Azure Storage k úpravě dat v příslušné složce ve službě Blob Storage.

Také neodebíjejte data. Odebrání dat z datové sady, která projekt používá, způsobí chybu v projektu.

Po vytvoření projektu můžete pomocí karty Podrobnosti změnit přírůstkovou aktualizaci, zobrazit časové razítko poslední aktualizace a požádat o okamžitou aktualizaci dat.

Poznámka:

Projekty, které používají vstup datové sady tabulkové (.csv nebo .tsv), můžou používat přírůstkovou aktualizaci. Přírůstková aktualizace ale přidává pouze nové tabulkové soubory. Aktualizace nerozpozná změny existujících tabulkových souborů.

Určení kategorií popisků

Na stránce Kategorie popisků zadejte sadu tříd pro kategorizaci dat.

Přesnost a rychlost popisovačů jsou ovlivněny jejich schopností vybírat mezi třídami. Například místo úplného rodu a druhů pro rostliny nebo zvířata použijte kód pole nebo zkracujte rod.

Můžete použít buď plochý seznam, nebo vytvořit skupiny popisků.

  • Pokud chcete vytvořit plochý seznam, vyberte Přidat kategorii popisků a vytvořte každý popisek.

    Snímek obrazovky znázorňující, jak přidat plochou strukturu popisků

  • Pokud chcete vytvořit popisky v různých skupinách, vyberte Přidat kategorii popisků a vytvořte popisky nejvyšší úrovně. Pak vyberte znaménko plus (+) pod každou nejvyšší úrovní a vytvořte další úroveň popisků pro danou kategorii. Pro libovolné seskupení můžete vytvořit až šest úrovní.

    Snímek obrazovky, který ukazuje, jak přidat skupiny popisků

Během procesu označování můžete vybrat popisky na libovolné úrovni. Například popisky Animal, , Animal/Cat, Animal/DogColor/BlackColor, Color/Whitea Color/Silver jsou všechny dostupné volby pro popisek. V projektu s více popisky není nutné vybrat jednu z každé kategorie. Pokud se jedná o váš záměr, nezapomeňte tyto informace zahrnout do pokynů.

Popis úlohy popisování textu

Je důležité jasně vysvětlit úlohu popisování. Na stránce s pokyny popisků můžete přidat odkaz na externí web s pokyny pro popisky nebo můžete zadat pokyny v poli pro úpravy na stránce. Udržujte pokyny orientované na úkoly a vhodné pro cílovou skupinu. Zvažte tyto otázky:

  • Jaké popisky popisky uvidí a jak si mezi nimi vyberou? Existuje odkaz na text odkazu?
  • Co by měli dělat, pokud se zdá, že žádný popisek není vhodný?
  • Co by měly dělat, když se zdá, že je více popisků vhodné?
  • Jaká prahová hodnota spolehlivosti by se měla použít u popisku? Chcete, aby popisovač byl nejlepší odhadnout, jestli si nejsou jistí?
  • Co mají dělat s částečně odlehlé nebo překrývajícími se objekty zájmu?
  • Co by měly dělat, když je objekt zájmu oříznut okrajem obrázku?
  • Co by měli dělat, když si myslí, že udělali chybu po odeslání štítku?
  • Co by měli dělat, když zjistí problémy s kvalitou obrazu, včetně špatných světelných podmínek, odrazů, ztráty fokusu, nezahrnutého pozadí, abnormálních úhlů kamery atd.?
  • Co by měli dělat, pokud má více revidujících různé názory na použití popisku?

Poznámka:

Popisky můžou vybrat prvních devět popisků pomocí číselových kláves 1 až 9.

Řízení kvality (Preview)

Chcete-li získat přesnější popisky, použijte stránku řízení kvality k odeslání každé položky více popisků.

Důležité

Popisování konsensu je v současné době ve verzi Public Preview.

Verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučuje se pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti.

Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

Pokud chcete, aby se každá položka odesílala více popiskům, vyberte Povolit popisování konsensu (Preview). Potom nastavte hodnoty pro minimální popisovače a maximální popisky , abyste určili, kolik popisků se má použít. Ujistěte se, že máte k dispozici tolik popisků jako maximální počet. Po spuštění projektu nemůžete tato nastavení změnit.

Pokud je dosaženo konsensus z minimálního počtu popisovačů, položka se označí. Pokud se nenajde shoda, položka se odešle více popiskům. Pokud po tom, co položka přejde na maximální počet popisovačů, neexistuje žádná shoda, jeho stav je Potřeba zkontrolovat a vlastník projektu zodpovídá za označení položky.

Použití popisků dat s asistencí ML

Aby bylo možné urychlit úlohy popisování, může stránka popisování s asistencí ML aktivovat modely automatického strojového učení. Popisování s asistencí strojového učení může zpracovávat jak soubory (.txt), tak tabulkové (.csv) textové vstupy.

Použití popisků s asistencí ML:

  1. Vyberte Povolit popisování s asistencí ML.
  2. Vyberte jazyk datové sady pro projekt. V tomto seznamu jsou uvedeny všechny jazyky, které třída TextDNNLanguages podporuje.
  3. Zadejte cílový výpočetní objekt, který se má použít. Pokud ve svém pracovním prostoru nemáte cílový výpočetní objekt, tento krok vytvoří výpočetní cluster a přidá ho do pracovního prostoru. Cluster se vytvoří s minimálním počtem nulových uzlů a stojí za nic, když se nepoužívá.

Další informace o popisování s asistencí ML

Na začátku projektu označování se položky zamíchají do náhodného pořadí, aby se snížil potenciální předsudky. Vytrénovaný model ale odráží všechny předsudky, které jsou přítomné v datové sadě. Pokud je například 80 procent položek jedné třídy, pak přibližně 80 procent dat použitých k trénování modelu v této třídě.

K trénování textového modelu DNN, který používá popisek s asistencí ML, je vstupní text v příkladu trénování omezen na přibližně prvních 128 slov v dokumentu. U tabulkového vstupu jsou všechny textové sloupce zřetězeny před tímto limitem. Tento praktický limit umožňuje, aby se trénování modelu dokončilo v přiměřené době. Skutečný text v dokumentu (pro vstup souboru) nebo sada textových sloupců (pro tabulkový vstup) může překročit 128 slov. Limit se týká pouze toho, co model interně používá během procesu trénování.

Počet označených položek potřebných k zahájení asistovaného popisování není pevným číslem. Toto číslo se může výrazně lišit od jednoho projektu popisování po jiný. Rozptyl závisí na mnoha faktorech, včetně počtu tříd popisků a distribuce popisků.

Pokud používáte popisování konsensu, použije se popisek konsensu pro trénování.

Vzhledem k tomu, že konečné popisky stále spoléhají na vstup z popisovače, tato technologie se někdy označuje jako popisování human-in-the-loop .

Poznámka:

Popisování dat s asistencí ML nepodporuje výchozí účty úložiště, které jsou zabezpečené za virtuální sítí. Pro popisování dat s asistencí ML musíte použít jiný než výchozí účet úložiště. Za virtuální sítí je možné zabezpečit jiný než výchozí účet úložiště.

Předběžné popisky

Po odeslání dostatečného množství popisků pro trénování se trénovaný model použije k predikci značek. Popisek teď uvidí stránky, které zobrazují předpovězené popisky, které už jsou na každé položce. Úkol pak zahrnuje kontrolu těchto předpovědí a opravu všech nesprávně označených položek před odesláním stránky.

Po vytrénování modelu strojového učení na ručně označených datech se model vyhodnotí na testovací sadě ručně označených položek. Vyhodnocení pomáhá určit přesnost modelu při různých prahových hodnotách spolehlivosti. Proces vyhodnocení nastaví prahovou hodnotu spolehlivosti, nad kterou je model dostatečně přesný k zobrazení předznaček. Model se pak vyhodnotí proti neoznačenému datu. Položky s predikcí, které jsou s větší jistotou než prahová hodnota, se používají k předběžnému označení.

Inicializace projektu popisků textu

Po inicializaci projektu popisků jsou některé aspekty projektu neměnné. Typ úkolu ani datovou sadu nemůžete změnit. Popisky a adresu URL popisu úkolu můžete upravit. Před vytvořením projektu pečlivě zkontrolujte nastavení. Po odeslání projektu se vrátíte na stránku přehledu popisků dat, která zobrazuje projekt jako Inicializace.

Poznámka:

Stránka přehledu se nemusí automaticky aktualizovat. Po pozastavení ručně aktualizujte stránku, aby se zobrazil stav projektu jako Vytvořený.

Řešení problému

Problémy s vytvořením projektu nebo přístupem k datům najdete v tématu Řešení potíží s popisky dat.

Další kroky