Wykrywanie języków

Artykuł
07/03/2019

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
Dowiedz się więcej o Azure Machine Learning.

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Wykrywa język każdego wiersza w pliku wejściowym

Kategoria: analiza tekstu

Uwaga

Dotyczy: tylko Machine Learning Studio (klasyczne)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Omówienie modułu

W tym artykule opisano sposób używania modułu Detect Languages w programie Machine Learning Studio (wersja klasyczna) do analizowania danych wejściowych tekstu i identyfikowania języka skojarzonego z każdym rekordem w danych wejściowych.

Algorytm wykrywania języka może identyfikować wiele różnych języków. Wystarczy określić kolumnę ciągu do przeanalizowania oraz łączną liczbę języków do wykrycia. Algorytm przeanalizuje każdy wiersz tekstu i przypisze wynik prawdopodobieństwa dla każdego języka. Język w pierwszej kolumnie wyników to język, który uzyskał najwyższą ocenę.

Jak skonfigurować wykrywanie języków

Dodaj zestaw danych zawierający tekst, który chcesz przeanalizować, do eksperymentu w programie Machine Learning Studio (wersja klasyczna). Kolumna zawierająca tekst do przeanalizowania musi być typem danych ciągu.

Zestaw dat nie musi zawierać kolumny etykiety; Algorytm wykrywania języka działa wyłącznie na funkcjach językowych obsługiwanych języków.

Jeśli importujesz nowe dane, upewnij się, że dane zostały zapisane w formacie UTF-8. Inne formaty Unicode nie są obsługiwane.
Dodaj moduł Detect Languages (Wykrywanie języków ) do eksperymentu i połącz zestaw danych z tekstem do wykrywania języka.
W polu Kolumna tekstowa wybierz kolumnę, którą chcesz przeanalizować.
W przypadku górnej granicy liczby języków do wykrycia wskaż maksymalną liczbę języków do wykrycia.

Ustawienie górnej granicy liczby języków może zwiększyć wydajność.
Uruchom eksperyment.

Wyniki

Moduł Detect Languages (Wykrywanie języków) wyprowadza identyfikator języka i ocenę dla każdego wiersza.

Na przykład następująca tabela zawiera przykładową analizę danych testowych.

Dwie pierwsze kolumny col1 i etykieta języka to kolumny przekazane z wejściowego zestawu danych. Ponieważ w tym przykładzie wejściowy zestaw danych został zaprojektowany do testowania modułu, oczekiwany język był już znany i znajduje się w kolumnie etykiet.
Pozostałe kolumny są generowane przez moduł Detect Languages (Wykrywanie języków ). Jeśli istnieją równoważnie prawdopodobne dopasowania języków, na liście może być kilka języków z wynikiem dla każdego z nich. W tym przypadku moduł przewiduje tylko jeden język dla każdego wiersza wraz z wynikiem prawdopodobieństwa dla tego języka.

Jeśli moduł nie wykryje żadnego języka z wystarczająco wysokim wynikiem, wynikiem jest (Nieznany) z wynikiem 0. Jednak języki obsługiwane przez moduł mogą zmieniać się wraz z czasem, gdy interfejs API jest aktualizowany.

Col1	Etykieta języka	Język Col1	Col1 , język Iso6391	Col1 Iso6391 Language Score
Wspaniały hotel z przyjaznym personelem i dobrą usługą	Angielski	Angielski	en	100
Es war ein wunderbares Hotel mit freundlichem Personal und guter service	Niemiecki	Niemiecki	de	100
C'est un lupque hcutel avec un personnelsique et un service de qualiique	Francuski	Francuski	fr	100
Det var et dejligt hotel med et venligt personale og god service	Duński	Duński	nl	100
Va ser un magnfic hotel amb un personal amable i bon servei	Kataloński	Kataloński	Ca	92.30769348
とても素敵なホテルで、スタッフは親切で、サービスもよかった	japoński	(Nieznany)		0
qu mebpa'mey naQ friendly QaQ chavmoH je	Klingoński	Francuski	fr	77.5

Przykłady

Aby uzyskać przykłady dotyczące sposobu, w jaki moduł Detect Languages jest używany w eksperymencie, zobacz Azure AI Gallery:

Filtruj tytuły filmów według języka: wykrywa język używany w nazwach filmów, a następnie używa identyfikatora języka, aby podzielić zestaw danych na filmy w języku angielskim lub innym niż angielski.

Uwagi techniczne

Ogólne informacje na temat języków, które mogą zostać wykryte, można znaleźć w Translator Bing.

Można wykryć o wiele więcej języków, niż Machine Learning obecnie obsługuje zaawansowaną analizę tekstu. Zalecamy użycie wyników polecenia Wykryj języki do filtrowania wyników, które są wysyłana do innych modułów wymagających przetwarzania specyficznego dla języka.

Podstawowe usługi językowe są również używane przez usługę analiza tekstu w Azure Cognitive Services.

Oczekiwane dane wejściowe

Nazwa	Typ	Opis
Zestaw danych	Tabela danych	Dane wejściowe

Parametry modułu

Nazwa	Typ	Zakres	Opcjonalne	Domyślny	Opis
Górna granica liczby języków do wykrycia	Liczba całkowita	[1;184]	Wymagane	1	Górna granica liczby języków do wykrycia.
Kolumna tekstowa	ColumnSelection		Wymagane		Nazwa lub oparty na jednym indeksie kolumny tekstowej.

Dane wyjściowe

Nazwa	Typ	Opis
Zestaw danych wyników	Tabela danych	Wynik

Wyjątki

Wyjątek	Opis
Błąd 0003	Wyjątek występuje, jeśli co najmniej jeden z wejść ma wartość null lub jest pusty.
Błąd 0010	Wyjątek występuje, jeśli wejściowe zestawy danych mają nazwy kolumn, które powinny być zgodne, ale nie.
Błąd 0016	Wyjątek występuje, jeśli wejściowe zestawy danych przekazane do modułu powinny mieć zgodne typy kolumn, ale nie.
Błąd 0008	Wyjątek występuje, jeśli parametr nie znajduje się w zakresie.

Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kodów błędów.

Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).

Zobacz też

Analiza tekstu
Lista modułów A–Z

Udostępnij za pośrednictwem