Etykietowanie danych tekstowych na potrzeby trenowania modelu na potrzeby analizy tonacji niestandardowej

Przed rozpoczęciem trenowania modelu należy oznaczyć dokumenty etykietą z tonacjami, do których chcesz je podzielić. Te dane będą używane w następnym kroku podczas trenowania modelu, aby model mógł uczyć się na podstawie oznaczonych danych. Jeśli masz już etykiety danych, możesz bezpośrednio zaimportować je do projektu. Upewnij się, że dane są zgodne z akceptowanym formatem danych.

Przed utworzeniem niestandardowego modelu analizy tonacji musisz najpierw oznaczyć dane etykietami. Jeśli dane nie są jeszcze oznaczone etykietą, możesz oznaczyć je w programie Language Studio. Dane oznaczone etykietami informują model, jak interpretować tekst i jest używany do trenowania i oceny.

Wymagania wstępne

Aby można było oznaczyć dane etykietami, potrzebne są następujące elementy:

  • Pomyślnie utworzono projekt ze skonfigurowanym kontem usługi Azure Blob Storage.
  • Dokumenty zawierające dane tekstowe przekazane na konto magazynu.

Aby uzyskać więcej informacji, zobacz cykl projektowania projektu.

Wytyczne dotyczące etykietowania danych

Po przygotowaniu danych i utworzeniu projektu należy oznaczyć je etykietami. Etykietowanie danych jest ważne, aby model wiedział, które dokumenty będą skojarzone z potrzebnymi tonacjami. Po oznaczeniu danych w programie Language Studio (lub zaimportowaniu oznaczonych danymi) te etykiety będą przechowywane w pliku JSON w kontenerze magazynu, który został połączony z tym projektem.

Podczas etykietowania danych należy pamiętać:

  • Ogólnie rzecz biorąc, bardziej oznaczone dane prowadzą do lepszych wyników, pod warunkiem, że dane są dokładnie oznaczone etykietą.

  • Nie ma stałej liczby etykiet, które mogą zagwarantować, że model będzie działać najlepiej. Wydajność modelu w przypadku możliwych niejednoznaczności w danych oraz jakości danych oznaczonych etykietami.

Etykietowanie danych

Aby oznaczyć dane, wykonaj następujące czynności:

  1. Przejdź do strony projektu w programie Language Studio.

  2. W menu po lewej stronie wybierz pozycję Etykietowanie danych. Listę wszystkich dokumentów można znaleźć w kontenerze magazynu.

    Napiwek

    Możesz użyć filtrów w górnym menu, aby wyświetlić nieoznaczone pliki, aby rozpocząć etykietowanie. Możesz również użyć filtrów, aby wyświetlić dokumenty, które są oznaczone określoną tonacją.

  3. Przejdź do pojedynczego widoku plików po lewej stronie w górnym menu lub wybierz określony plik, aby rozpocząć etykietowanie. Listę wszystkich .txt plików dostępnych w projektach można znaleźć po lewej stronie. Aby przejść przez dokumenty, możesz użyć przycisku Wstecz i dalej w dolnej części strony.

    Uwaga

    Jeśli dla projektu włączono wiele języków, w górnym menu znajdziesz listę rozwijaną Język , która umożliwia wybranie języka każdego dokumentu.

  4. W okienku po prawej stronie możesz dodać tonacje do projektu, aby rozpocząć etykietowanie danych przy użyciu nich.

  5. W okienku po prawej stronie w obszarze przestawnym Etykiety można znaleźć wszystkie tonacje w projekcie i liczbę wystąpień oznaczonych etykietami dla każdego z nich.

  6. W dolnej sekcji okienka po prawej stronie możesz dodać bieżący plik wyświetlany do zestawu treningowego lub zestawu testów. Domyślnie wszystkie dokumenty są dodawane do zestawu treningowego. Dowiedz się więcej na temat zestawów trenowania i testowania oraz sposobu ich użycia na potrzeby trenowania i oceny modelu.

    Napiwek

    Jeśli planujesz użycie automatycznego dzielenia danych, użyj domyślnej opcji przypisania wszystkich dokumentów do zestawu treningowego.

  7. W obszarze przestawnym Dystrybucja można wyświetlić rozkład między zestawami trenowania i testowania. Dostępne są dwie opcje wyświetlania:

    • Łączna liczba wystąpień , w których można wyświetlić liczbę wszystkich oznaczonych etykietami wystąpień określonego tonacji.
    • Dokumenty z co najmniej jedną etykietą , w której każdy dokument jest liczone, jeśli zawiera co najmniej jedno wystąpienie z etykietą tego tonacji.
  8. Podczas etykietowania zmiany będą okresowo synchronizowane, jeśli nie zostały jeszcze zapisane, w górnej części strony zostanie wyświetlone ostrzeżenie. Jeśli chcesz zapisać ręcznie, kliknij przycisk Zapisz etykiety w dolnej części strony.

Następne kroki

Po oznaczeniu danych etykietą możesz rozpocząć trenowanie modelu , który będzie uczyć się na podstawie danych.