Wyodrębnianie kluczowych fraz z tekstu

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Wyodrębnia kluczowe frazy z danego tekstu

Kategoria: analiza tekstu

Uwaga

Dotyczy: tylko Machine Learning Studio (klasyczne)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Omówienie modułu

W tym artykule wyjaśniono, jak używać modułu Wyodrębnianie kluczowych fraz z tekstu w programie Machine Learning Studio (wersja klasyczna) do wstępnego przetwarzania kolumny tekstowej. Biorąc pod uwagę kolumnę tekstu w języku naturalnym, moduł wyodrębnia co najmniej jedną znaczącą frazę. Fraza może być pojedynczym słowem, rzeczownikiem złożonym lub modyfikatorem oraz rzeczownikiem.

Ten moduł jest otoką dla interfejsów API przetwarzania języka naturalnego do wyodrębniania fraz kluczowych. Frazy są analizowane jako potencjalnie znaczące w kontekście zdania z różnych powodów:

  • Fraza przechwytuje temat zdania.
  • Fraza zawiera kombinację modyfikatora i rzeczownika, który wskazuje tonacji.

Załóżmy na przykład, że przeanalizowane zdanie to: "To był wspaniały hotel, w których można było zostać, z unikatowym i przyjaznym personelem".

Moduł Extract Key Phrases from Text ( Wyodrębnianie kluczowych fraz z tekstu) może zwrócić następujące frazy kluczowe:

  • wspaniały hotel
  • przyjazny personel
  • unikatowa unikatowa

Jak skonfigurować wyodrębnianie kluczowych fraz z tekstu

Aby wyodrębnić kluczowe frazy, musisz połączyć zestaw danych, który zawiera kolumnę tekstu.

  1. Dodaj moduł Extract Key Phrases from Text (Wyodrębnianie kluczowych fraz z tekstu) do eksperymentu w Machine Learning Studio (wersja klasyczna). Następnie połącz zestaw danych, który ma co najmniej jedną kolumnę pełno tekstową.

  2. Użyj selektora kolumn, aby wybrać kolumnę typu ciąg, z której mają być wyodrębnione frazy kluczowe.

  3. W przypadku opcji Język wybierz język, który ma być używany podczas analizowania fraz. Jeśli określisz język, zostaną wyprowadzne tylko frazy w języku docelowym.

  4. Jeśli kolumna tekstowa zawiera frazy w wielu językach, wybierz opcję Język zidentyfikowany w kolumnach. Zostanie wyświetlony nowy selektor kolumn, który umożliwia wybranie kolumny w zestawie danych zawierającej identyfikator języka. Identyfikator języka może być nazwą języka lub identyfikatorem kultury Iso6391. Na przykład dopuszczalne są wartości "English" lub "en".

    Porada

    Przed uruchomieniem funkcji Wyodrębnij kluczowe frazy z tekstu użyj modułu Detect Languages (Wykrywanie języków), aby zidentyfikować język w każdym wierszu i wygenerować identyfikator. Jeśli kolumna identyfikatora języka zawiera języki, które nie są obsługiwane przez wyodrębnianie kluczowych fraz z tekstu, jest zwracany błąd.

Wyniki

Dane wyjściowe modułu to zestaw danych zawierający kolumnę fraz kluczowych rozdzielonych przecinkami.

Na przykład następujące przykładowe wyniki są dla wejściowego zestawu danych zawierającego przeglądy w wielu językach:

Frazy kluczowe
novel,zduchy,dobra książka,adventure story,avalanche of events,good characters
primer primer primer primererio,personajes,fan,aventura,isla
  • Wszystkie frazy wyjściowe są zawarte w jednej kolumnie; żadne inne kolumny nie są przekazywane, a identyfikator nie jest dodawany. Jeśli jednak chcesz wyrównać frazy wyjściowe z tekstem źródłowym, możesz ponownie pokomunikować frazy wyjściowe z wejściami przy użyciu modułu Dodawanie kolumn .

  • Dane wyjściowe wyodrębniania fraz kluczowych nie flaguje języka poszczególnych fraz.

  • Jeśli dołączony jest język, który nie jest obsługiwany przez moduł Wyodrębnij kluczowe frazy, zostanie podniesiony błąd (0039). Aby uniknąć błędów, odfiltruj tekst wejściowy, który ma niezgodny identyfikator języka.

    Jeśli istnieje bardzo niewiele wierszy innych języków, możesz również uniknąć błędu, pomijając identyfikator języka i analizując cały tekst przy użyciu pojedynczego wyboru języka. Jednak gdy to zrobisz, wyniki będą bardzo słabe, ponieważ całe zdania w innych językach mogą być wyprowadzane jako pojedyncza fraza kluczowa.

Przykłady

W poniższym przykładzie pokazano, jak używać tego modułu do wyodrębniania kluczowych fraz, a następnie tworzenia chmury słów z fraz: Wyodrębnianie kluczowych fraz i Pokazywanie chmury słów

Zobacz Azure AI Gallery więcej przykładów przetwarzania tekstu przy użyciu Machine Learning.

Uwagi techniczne

Ten moduł obsługuje obecnie następujące języki:

  • Niderlandzki
  • Angielski
  • Francuski
  • niemiecki
  • Włoski
  • Hiszpański

W przypadku dodatkowych języków rozważ użycie interfejsu API analiza tekstu w Azure Cognitive Services. Aby uzyskać więcej informacji, zobacz Jak wyodrębniać kluczowe frazy w analiza tekstu

Oczekiwane dane wejściowe

Nazwa Typ Opis
Zestaw danych Tabela danych Tabela zawierająca tekst do przetworzenia.

Parametry modułu

Nazwa Typ Zakres Opcjonalne Domyślny Opis
Kolumna Culture-language ColumnSelection language:Kolumna zawiera język Nazwa lub jeden indeks kolumny zawierającej informacje o języku kulturowym
Kolumna tekstowa ColumnSelection Wymagane Nazwa lub jeden indeks kolumny tekstowej.
Język T_Language Angielski, hiszpański, francuski, niderlandzki, niemiecki, włoski, kolumna zawiera język Wymagane Angielski Wybierz język tekstu do przetworzenia.

Dane wyjściowe

Nazwa Typ Opis
Zestaw danych wyników Tabela danych Wyodrębnione frazy kluczowe

Wyjątki

Wyjątek Opis
Błąd 0003 Wyjątek występuje, jeśli co najmniej jeden z wejść ma wartość null lub jest pusty.
Błąd 0010 Wyjątek występuje, jeśli wejściowe zestawy danych mają nazwy kolumn, które powinny być zgodne, ale nie.
Błąd 0016 Wyjątek występuje, jeśli wejściowe zestawy danych przekazane do modułu powinny mieć zgodne typy kolumn, ale nie.
Błąd 0008 Wyjątek występuje, jeśli parametr nie znajduje się w zakresie.

Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kodów błędów.

Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).

Zobacz też

Analiza tekstu
Lista modułów A–Z