Usuwanie zduplikowanych wierszy

Artykuł
05/06/2019

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
Dowiedz się więcej o Azure Machine Learning.

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Usuwa zduplikowane wiersze z zestawu danych

Kategoria: Przekształcanie/manipulowanie danymi

Uwaga

Dotyczy: Machine Learning Studio (wersja klasyczna)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Omówienie modułu

W tym artykule opisano sposób usuwania zduplikowanych wierszy w programie Machine Learning Studio (wersja klasyczna) w celu usunięcia potencjalnych duplikatów z zestawu danych.

Załóżmy na przykład, że dane wyglądają podobnie do następujących i reprezentują wiele rekordów pacjentów.

PatientID	Inicjały	Płeć	Wiek	Dopuszczone
1	F.M.	M	53	Sty
2	F.A.M.	M	53	Sty
3	F.A.M.	M	24	Sty
3	F.M.	M	24	Lut
4	F.M.	M	23	Lut
	F.M.	M	23
5	F.A.M.	M	53

Ten przykład ma wiele kolumn z potencjalnie zduplikowanymi danymi. To, czy są one duplikatami, zależy od twojej wiedzy na temat danych.

Możesz na przykład wiedzieć, że wielu pacjentów ma taką samą nazwę. Duplikatów nie można wyeliminować przy użyciu żadnych kolumn nazw, a tylko kolumn identyfikatorów . Dzięki temu odfiltrowane są tylko wiersze ze zduplikowanymi wartościami identyfikatorów, niezależnie od tego, czy pacjenci mają taką samą nazwę, czy nie.
Alternatywnie można zezwolić na duplikaty w polu Identyfikator i użyć innej kombinacji plików w celu znalezienia unikatowych rekordów, takich jak imię, nazwisko, wiek i płeć.

Aby ustawić kryteria dotyczące tego, czy wiersz jest zduplikowany, należy określić pojedynczą kolumnę lub zestaw kolumn do użycia jako klucze. Dwa wiersze są traktowane jako duplikaty tylko wtedy, gdy wartości we wszystkich kolumnach klucza są równe.

Uruchomienie modułu powoduje utworzenie kandydowania zestawu danych i zwraca zestaw wierszy, które nie mają duplikatów we wskazanym zestawie kolumn.

Ważne

Źródłowy zestaw danych nie jest zmieniany; Ten moduł tworzy nowy zestaw danych, który jest filtrowany w celu wykluczania duplikatów na podstawie określonych kryteriów.

Jak usunąć zduplikowane wiersze

Dodaj moduł do eksperymentu. Moduł Remove Duplicate Rows (Usuwanie zduplikowanych wierszy) można znaleźć w obszarze Przekształcanie danych, Manipulowanie.
Połączenie zestawu danych, który chcesz sprawdzić pod czy są zduplikowane wiersze.
W okienku Właściwości w obszarze Wyrażenie filtru wyboru kolumny klucza kliknij pozycję Uruchom selektor kolumn, aby wybrać kolumny do użycia w identyfikowaniu duplikatów.

W tym kontekście klucz nie oznacza unikatowego identyfikatora. Wszystkie kolumny wybrane przy użyciu selektora kolumn są oznaczone jako kolumny klucza. Wszystkie niewybrane kolumny są traktowane jako kolumny bez klucza. Kombinacja kolumn wybranych jako klucze określa unikatowość rekordów. (Pomyśl o tym jak o SQL, która używa wielu sprzężenia równości).

Przykłady:
- "Chcę mieć pewność, że identyfikatory są unikatowe": wybierz tylko kolumnę Identyfikator.
- "Chcę mieć pewność, że kombinacja imienia, nazwiska i identyfikatora jest unikatowa": wybierz wszystkie trzy kolumny.
Użyj Zachowaj pierwszy zduplikowany wiersz pole wyboru , aby wskazać, który wiersz ma być zwracany po znaleziono duplikaty:
- Jeśli ta opcja jest zaznaczona, zwracany jest pierwszy wiersz, a inne są odrzucane.
- Jeśli ta opcja nie zostanie zaznaczona, ostatni zduplikowany wiersz będzie przechowywany w wynikach, a inne zostaną odrzucone.
Zobacz sekcję Uwagi techniczne , aby uzyskać informacje na temat sposobu obsługi pomijanych wartości.
Uruchom eksperyment lub kliknij moduł i wybierz pozycję Uruchom wybrane.
Aby przejrzeć wyniki, kliknij prawym przyciskiem myszy moduł, wybierz pozycję Zestaw danych wyników, a następnie kliknij pozycję Visualize (Wizualizacja).

Porada

Jeśli wyniki są trudne do zrozumienia lub jeśli chcesz wykluczyć niektóre kolumny z uwzględnienia, możesz usunąć kolumny przy użyciu modułu Select Columns in Dataset (Wybieranie kolumn w zestawie danych).

Przykłady

Aby zobaczyć przykłady sposobu, w jaki ten moduł jest używany, zobacz Azure AI Gallery:

Wykrywanie raka choroby: funkcja Usuń zduplikowane wiersze służy do konsolidowania treningowych i testowych zestawów danych po dodaniu kolumn funkcji.
Rekomendacja filmu: używa polecenia Usuń zduplikowane wiersze , aby upewnić się, że na film jest tylko jedna ocena użytkownika.
Analiza tonacji w serwisie Twitter : usuwanie zduplikowanych wierszy jest stosowane tylko do kolumn identyfikatorów i popularności, aby upewnić się, że istnieje tylko jedna wartość klasyfikacji porządkowej na film. Innymi słowy, film nie może być pierwszy ani trzeci, więc używana jest pojedyncza wartość, nawet jeśli użytkownicy sklasyfikowali film w inny sposób.

Uwagi techniczne

Ta sekcja zawiera szczegóły implementacji, porady i odpowiedzi na często zadawane pytania.

Szczegóły implementacji

Moduł działa przez zapętlenie wszystkich wierszy wejściowego zestawu danych. Zbiera ona do wyjściowego zestawu danych wszystkie wiersze, w których po raz pierwszy pojawia się unikatowa kombinacja wartości kolumny klucza.

Typ tablicy kolumn jest zachowywany niezależnie od wyników filtrowania wierszy. Nie można wymusić na tablicy określonego typu danych przez odfiltrowanie nieprawidłowych wartości; Typ tablicy kolumn jest oparty na wszystkich wartościach w kolumnie. To ograniczenie ma również zastosowanie w przypadku filtrowania brakujących wartości.

Algorytm używany do porównywania wartości danych jest wymuszany przy wyznaczaniu wartości skrótu.

Brakujące wartości

W wejściowym zestawie danych mogą brakować wartości w kolumnach bez klucza i kluczach. Te reguły dotyczą brakujących wartości:

Brakująca wartość jest uznawana za prawidłową wartość w kluczach kolumn. W obu kluczach mogą być obecne brakujące wartości.
W rozrzednionym zestawie danych brakująca wartość jest uznawana za równą tylko wtedy, gdy jest równa domyślnej reprezentacji wartości rozrzedzionej.
W kolumnach kluczy brakująca wartość jest uznawana za równą innym brakującym wartościom, ale nie równa się brakujących wartościom.

Oczekiwane dane wejściowe

Nazwa	Typ	Opis
Zestaw danych	Tabela danych	Wejściowy zestaw danych

Parametry modułu

Nazwa	Zakres	Typ	Domyślny	Opis
Wyrażenie filtru wyboru kolumny klucza	dowolny	ColumnSelection		Wybierz kolumny kluczy do użycia podczas wyszukiwania duplikatów.
Zachowaj pierwszy zduplikowany wiersz	dowolny	Wartość logiczna	true	Wskaż, czy zachować pierwszy wiersz zestawu duplikatów i odrzucić inne. W przypadku wartości False ostatni napotkany zduplikowany wiersz jest zachowywany.

Dane wyjściowe

Nazwa	Typ	Opis
Zestaw danych wyników	Tabela danych	Przefiltrowany zestaw danych

Wyjątki

Wyjątek	Opis
Błąd 0003	Wyjątek występuje, jeśli co najmniej jeden wejściowy zestaw danych ma wartość null lub jest pusty.
Błąd 0020	Wyjątek występuje, gdy liczba kolumn w niektórych zestawach danych przekazanych do modułu jest zbyt mała.
Błąd 0017	Wyjątek występuje, jeśli co najmniej jedna określona kolumna ma typ nieobsługiwany przez bieżący moduł.

Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kodów błędów.

Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).

Zobacz też

Manipulacji
Lista modułów A–Z

Udostępnij za pośrednictwem