Wykrywanie języków

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Wykrywa język każdego wiersza w pliku wejściowym

Kategoria: analiza tekstu

Uwaga

Dotyczy: tylko Machine Learning Studio (klasyczne)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Omówienie modułu

W tym artykule opisano sposób używania modułu Detect Languages w programie Machine Learning Studio (wersja klasyczna) do analizowania danych wejściowych tekstu i identyfikowania języka skojarzonego z każdym rekordem w danych wejściowych.

Algorytm wykrywania języka może identyfikować wiele różnych języków. Wystarczy określić kolumnę ciągu do przeanalizowania oraz łączną liczbę języków do wykrycia. Algorytm przeanalizuje każdy wiersz tekstu i przypisze wynik prawdopodobieństwa dla każdego języka. Język w pierwszej kolumnie wyników to język, który uzyskał najwyższą ocenę.

Jak skonfigurować wykrywanie języków

  1. Dodaj zestaw danych zawierający tekst, który chcesz przeanalizować, do eksperymentu w programie Machine Learning Studio (wersja klasyczna). Kolumna zawierająca tekst do przeanalizowania musi być typem danych ciągu.

    Zestaw dat nie musi zawierać kolumny etykiety; Algorytm wykrywania języka działa wyłącznie na funkcjach językowych obsługiwanych języków.

    Jeśli importujesz nowe dane, upewnij się, że dane zostały zapisane w formacie UTF-8. Inne formaty Unicode nie są obsługiwane.

  2. Dodaj moduł Detect Languages (Wykrywanie języków ) do eksperymentu i połącz zestaw danych z tekstem do wykrywania języka.

  3. W polu Kolumna tekstowa wybierz kolumnę, którą chcesz przeanalizować.

  4. W przypadku górnej granicy liczby języków do wykrycia wskaż maksymalną liczbę języków do wykrycia.

    Ustawienie górnej granicy liczby języków może zwiększyć wydajność.

  5. Uruchom eksperyment.

Wyniki

Moduł Detect Languages (Wykrywanie języków) wyprowadza identyfikator języka i ocenę dla każdego wiersza.

Na przykład następująca tabela zawiera przykładową analizę danych testowych.

  • Dwie pierwsze kolumny col1 i etykieta języka to kolumny przekazane z wejściowego zestawu danych. Ponieważ w tym przykładzie wejściowy zestaw danych został zaprojektowany do testowania modułu, oczekiwany język był już znany i znajduje się w kolumnie etykiet.

  • Pozostałe kolumny są generowane przez moduł Detect Languages (Wykrywanie języków ). Jeśli istnieją równoważnie prawdopodobne dopasowania języków, na liście może być kilka języków z wynikiem dla każdego z nich. W tym przypadku moduł przewiduje tylko jeden język dla każdego wiersza wraz z wynikiem prawdopodobieństwa dla tego języka.

    Jeśli moduł nie wykryje żadnego języka z wystarczająco wysokim wynikiem, wynikiem jest (Nieznany) z wynikiem 0. Jednak języki obsługiwane przez moduł mogą zmieniać się wraz z czasem, gdy interfejs API jest aktualizowany.

Col1 Etykieta języka Język Col1 Col1 , język Iso6391 Col1 Iso6391 Language Score
Wspaniały hotel z przyjaznym personelem i dobrą usługą Angielski Angielski en 100
Es war ein wunderbares Hotel mit freundlichem Personal und guter service Niemiecki Niemiecki de 100
C'est un lupque hcutel avec un personnelsique et un service de qualiique Francuski Francuski fr 100
Det var et dejligt hotel med et venligt personale og god service Duński Duński nl 100
Va ser un magnfic hotel amb un personal amable i bon servei Kataloński Kataloński Ca 92.30769348
とても素敵なホテルで、スタッフは親切で、サービスもよかった japoński (Nieznany) 0
qu mebpa'mey naQ friendly QaQ chavmoH je Klingoński Francuski fr 77.5

Przykłady

Aby uzyskać przykłady dotyczące sposobu, w jaki moduł Detect Languages jest używany w eksperymencie, zobacz Azure AI Gallery:

  • Filtruj tytuły filmów według języka: wykrywa język używany w nazwach filmów, a następnie używa identyfikatora języka, aby podzielić zestaw danych na filmy w języku angielskim lub innym niż angielski.

Uwagi techniczne

Ogólne informacje na temat języków, które mogą zostać wykryte, można znaleźć w Translator Bing.

Można wykryć o wiele więcej języków, niż Machine Learning obecnie obsługuje zaawansowaną analizę tekstu. Zalecamy użycie wyników polecenia Wykryj języki do filtrowania wyników, które są wysyłana do innych modułów wymagających przetwarzania specyficznego dla języka.

Podstawowe usługi językowe są również używane przez usługę analiza tekstu w Azure Cognitive Services.

Oczekiwane dane wejściowe

Nazwa Typ Opis
Zestaw danych Tabela danych Dane wejściowe

Parametry modułu

Nazwa Typ Zakres Opcjonalne Domyślny Opis
Górna granica liczby języków do wykrycia Liczba całkowita [1;184] Wymagane 1 Górna granica liczby języków do wykrycia.
Kolumna tekstowa ColumnSelection Wymagane Nazwa lub oparty na jednym indeksie kolumny tekstowej.

Dane wyjściowe

Nazwa Typ Opis
Zestaw danych wyników Tabela danych Wynik

Wyjątki

Wyjątek Opis
Błąd 0003 Wyjątek występuje, jeśli co najmniej jeden z wejść ma wartość null lub jest pusty.
Błąd 0010 Wyjątek występuje, jeśli wejściowe zestawy danych mają nazwy kolumn, które powinny być zgodne, ale nie.
Błąd 0016 Wyjątek występuje, jeśli wejściowe zestawy danych przekazane do modułu powinny mieć zgodne typy kolumn, ale nie.
Błąd 0008 Wyjątek występuje, jeśli parametr nie znajduje się w zakresie.

Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kodów błędów.

Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).

Zobacz też

Analiza tekstu
Lista modułów A–Z