Podsumowywanie danych
Ważne
Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.
Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).
- Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
- Dowiedz się więcej o Azure Machine Learning.
Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.
Generuje podstawowy raport statystyk opisowych dla kolumn w zestawie danych
Kategoria: Funkcje statystyczne
Uwaga
Dotyczy: Machine Learning Studio (wersja klasyczna)
Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.
Omówienie modułu
W tym artykule opisano sposób użycia modułu Summarize Data (Podsumuj dane) w programie Machine Learning Studio (wersja klasyczna) w celu utworzenia zestawu standardowych miar statystycznych opisujących każdą kolumnę w tabeli wejściowej.
Takie statystyki podsumowujące są przydatne, gdy chcesz zrozumieć charakterystykę kompletnego zestawu danych. Na przykład może być konieczne:
- Ile brakujących wartości znajduje się w każdej kolumnie?
- Ile unikatowych wartości znajduje się w kolumnie funkcji?
- Jaka jest średnia i odchylenie standardowe dla każdej kolumny?
Moduł oblicza ważne wyniki dla każdej kolumny i zwraca wiersz podsumowania statystyk dla każdej zmiennej (kolumny danych) podanej jako dane wejściowe.
Porada
Być może wiesz już, że możesz uzyskać krótką listę statystyk przy użyciu opcji Visualize (Wizualizacja) w programie Studio (wersja klasyczna). Jednak ta wizualizacja jest tworzona na podstawie dużej liczby wierszy. Z kolei moduł Summarize Data (Podsumuj dane) oblicza swoje statystyki dla wszystkich wierszy danych.
Jak używać podsumowania danych
Dodaj moduł Summarize Data (Podsumuj dane) do eksperymentu. Ten moduł można znaleźć w kategorii Funkcje statystyczne w programie Studio (wersja klasyczna).
Połączenie zestaw danych, dla którego chcesz wygenerować raport.
Jeśli chcesz raportować tylko dla niektórych kolumn, użyj modułu Select Columns in Dataset (Wybieranie kolumn w zestawie danych), aby rzutować podzbiór kolumn do pracy.
Nie są wymagane żadne dodatkowe parametry. Domyślnie moduł analizuje wszystkie kolumny, które są dostarczane jako dane wejściowe, i w zależności od typu wartości w kolumnach wyprowadza odpowiedni zestaw statystyk zgodnie z opisem w sekcji Wyniki.
Uruchom eksperyment lub kliknij prawym przyciskiem myszy moduł, a następnie wybierz pozycję Uruchom wybraną.
Wyniki
Raport z modułu może zawierać następujące statystyki.
Dokładne statystyki, które są generowane, zależą od typu danych kolumny. Aby uzyskać szczegółowe informacje, zobacz sekcję Uwagi techniczne.
Zakłada się, że wystąpienia należą do reprezentatywnej próbki populacji. Jeśli chcesz obliczyć statystyki dotyczące populacji, użyj opcji dostępnych w module Obliczanie statystyk podstawowych, w którym można obliczyć statystyki próbki lub populacji.
Nazwa kolumny | Opis |
---|---|
Funkcja | Nazwa kolumny |
Liczba | Liczba wszystkich wierszy |
Liczba unikatowych wartości | Liczba unikatowych wartości w kolumnie |
Liczba brakujących wartości | Liczba unikatowych wartości w kolumnie |
Min | Najniższa wartość w kolumnie |
Max | Najwyższa wartość w kolumnie |
Oznacza | Średnia wszystkich wartości kolumn |
Odchylenie średnie | Średnie odchylenie wartości kolumn |
1. Kwartyl | Wartość przy pierwszym kwartylu |
Mediana | Mediana wartości kolumny |
Trzeci kwartyl | Wartość w trzecim kwartylu |
Tryb | Tryb wartości kolumn |
Zakres | Liczba całkowita reprezentująca liczbę wartości między wartościami maksymalnymi i minimalnymi |
Przykładowa wariancja | Wariancja dla kolumny; zobacz Uwaga |
Przykładowe odchylenie standardowe | Odchylenie standardowe dla kolumny; zobacz Uwaga |
Nies skośność przykładu | Nieschyć dla kolumny; zobacz Uwaga |
Przykładowe dane | Funkcja dla kolumny; zobacz Uwaga |
P0.5 | 0,5% percentyla |
P1 | Percentyl 1% |
P5 | 5% percentyl |
P95 | 95% percentyl |
P99.5 | 99,5% percentyla |
Porada
Dane wyjściowe raportu statystycznego jako tabelarygo zestawu danych, dzięki czemu można użyć danych w narzędziach do raportowania analizy danych lub użyć wartości jako danych wejściowych dla innej operacji w eksperymencie.
Przykłady
Aby uzyskać przykłady użycia modułu Summarize Data (Podsumuj dane) w eksperymencie, zobacz Azure AI Gallery:
Pobierz zestaw danych z uci: odczytuje zestaw danych w formacie CSV przy użyciu jego adresu URL w repozytorium UCI Machine Learning Repository i generuje pewne podstawowe statystyki dotyczące zestawu danych.
Przetwarzanie i analiza zestawu danych: ładuje zestaw danych do obszaru roboczego, zmienia nazwy kolumn i dodaje metadane.
Przewidywanie wydajności studentów: odczytuje dane przechowywane w formacie TSV z usługi Azure Blob Storage.
Uwagi techniczne
W przypadku kolumn liczbowych i logicznych można wyprowadzać średnią, medianę, tryb i odchylenie standardowe.
W przypadku kolumn nieliczbowych są obliczane tylko wartości z pól Liczba, Liczba unikatowych wartości i Liczba brakujących wartości. W przypadku innych statystyk zwracana jest wartość null.
Kolumny zawierające wartości logiczne są przetwarzane przy użyciu tych reguł:
Podczas obliczania wartości Minimalne jest stosowany logiczny operator AND.
Podczas obliczania wartości Maksymalnej jest stosowana wartość logiczna OR
Podczas obliczania zakresu moduł najpierw sprawdza, czy liczba unikatowych wartości w kolumnie jest równa 2.
Podczas obliczania statystyk, które wymagają obliczeń zmiennoprzecinków, wartości True są traktowane jako 1,0, a wartości False są traktowane jako 0,0.
Oczekiwane dane wejściowe
Nazwa | Typ | Opis |
---|---|---|
Zestaw danych | Tabela danych | Wejściowy zestaw danych |
Dane wyjściowe
Nazwa | Typ | Opis |
---|---|---|
Zestaw danych wyników | Tabela danych | Profil wejściowego zestawu danych, który zawiera statystyki opisowe |
Wyjątki
Wyjątek | Opis |
---|---|
Błąd 0003 | Wyjątek występuje, jeśli co najmniej jedno wejście ma wartość null lub jest puste. |
Błąd 0020 | Wyjątek występuje, gdy liczba kolumn w niektórych zestawach danych przekazanych do modułu jest zbyt mała. |
Błąd 0021 | Wyjątek występuje, gdy liczba wierszy w niektórych zestawach danych przekazanych do modułu jest zbyt mała. |
Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kodów błędów.
Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).