Korelacja liniowa obliczeniowa
Ważne
Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.
Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).
- Zobacz informacje dotyczące przenoszenia projektów uczenia maszynowego z programu ML Studio (klasycznego) do Azure Machine Learning.
- Dowiedz się więcej o Azure Machine Learning.
Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.
Oblicza korelację liniową między wartościami kolumn w zestawie danych
Kategoria: Funkcje statystyczne
Uwaga
Dotyczy: tylko Machine Learning Studio (wersja klasyczna)
Podobne moduły przeciągania i upuszczania są dostępne w projektancie Azure Machine Learning.
Omówienie modułu
W tym artykule opisano sposób użycia modułu Korelacja liniowa obliczeniowa w programie Machine Learning Studio (klasycznym), aby obliczyć zestaw współczynników korelacji Pearson dla każdej możliwej pary zmiennych w zestawie danych wejściowych.
Współczynnik korelacji Pearson, czasami nazywany testem R Pearsona, jest wartością statystyczną, która mierzy relację liniową między dwiema zmiennymi. Badając wartości współczynników, można wywnioskować coś na temat siły relacji między dwiema zmiennymi i czy są one pozytywnie skorelowane, czy negatywnie skorelowane.
Jak skonfigurować korelację liniową
Przed obliczeniem współczynnika korelacji istnieją pewne wymagania wstępne, takie jak czyszczenie danych i sprawdzanie, czy relacja między zmiennymi jest odpowiednia dla tego modułu. Należy również usunąć lub przypisać brakujące wartości.
Podczas korzystania z tego modułu obowiązują następujące ograniczenia:
Moduł Korelacja liniowa obliczeniowa może przetwarzać tylko wartości liczbowe. Wszystkie inne typy wartości, w tym brakujące wartości, wartości nieliczbowe i wartości kategorii, są traktowane jako NaNs.
Korelacja Pearsona jest obliczana dla wszystkich kolumn liczbowych w zestawie danych przekazywanych jako dane wejściowe. Pamiętaj, aby wykluczyć wszystkie kolumny, które są odpowiednie dla tej analizy.
Korelacja liniowa obliczeniowa nie może być używana z danymi, które mają brakujące wartości.
Krok 1. Określanie liniowości
Jeśli kolumny, które testujesz, nie mają jakiejś relacji liniowej, nie ma sensu generować tego współczynnika. Warto więc najpierw przetestować kolumny, aby sprawdzić, czy mają właściwy rodzaj danych i właściwy rodzaj dystrybucji w ogóle.
Istnieją różne sposoby określania, czy relacja między kolumnami jest w przybliżeniu liniowa:
Utwórz wykres punktowy zmiennych w programie Studio (klasycznym), używając opcji Wizualizuj w zestawie danych. Kliknij jedną z kolumn zmiennej liczbowej, rozwiń węzeł Wizualizacje i kliknij przycisk porównaj. Wybierz inną zmienną, a wykres punktowy jest generowany automatycznie. Jeśli zostanie wygenerowany inny typ wykresu, oznacza to, że co najmniej jedna kolumna ma inny typ danych (nieliczbowy).
Oblicz równanie regresji dla dwóch zmiennych. Istnieje wiele pakietów języka R, które obsługują tę obsługę, które można załadować i użyć w module Execute R Script (Wykonywanie skryptu języka R ).
Krok 2. Czyszczenie danych
Musisz usunąć lub wypełnić brakujące wartości, usunąć lub wyciąć wartości odstające i upewnić się, że kolumny mają odpowiedni typ danych.
Pamiętaj, aby sprawdzić symbole zastępcze i zastąpić taką wartość innymi odpowiednimi wartościami przed użyciem tego modułu. Jeśli w polu NaNs wstawiono brakujące wartości, gdy zestaw danych został załadowany ze źródła, może to spowodować błąd. Wartości symboli zastępczych, takie jak 999
lub -1
mogą również powodować nieprawidłowe wyniki.
Aby przygotować dane, możesz użyć następujących modułów:
Typ danych kolumn można dostosować za pomocą funkcji Edytuj metadane. Upewnij się, że kolumny, które chcesz przeanalizować, są oznaczone jako kolumny funkcji.
Krok 3. Generowanie współczynnika
Dodaj moduł Korelacja liniowa obliczeniowa do eksperymentu. Ten moduł można znaleźć w kategorii Funkcje statystyczne w programie Machine Learning Studio (wersja klasyczna).
Dodaj zestaw danych, który chcesz przeanalizować.
Zalecamy dodanie modułu Select Columns in Dataset (Wybieranie kolumn w zestawie danych) między zestawem danych a modułem Compute Linear Correlation (Korelacja liniowa obliczeniowa ), aby usunąć niepotrzebne kolumny. Skonfiguruj moduł Select Columns in Dataset (Wybieranie kolumn w zestawie danych), aby uzyskać tylko dwie kolumny liczbowe, dla których mają być obliczane współczynniki.
W przeciwnym razie moduł Compute Linear Correlation (Korelacja liniowa obliczeniowa ) może wygenerować wiele kolumn sieci NaNs.
Brak parametrów do ustawienia dla tego modułu. Jednak nie powiedzie się, jeśli kolumny przekazane jako dane wejściowe nie spełniają wymagań.
Uruchom eksperyment.
Wyniki dla dwóch kolumn
Biorąc pod uwagę dwie kolumny funkcji, moduł Compute Linear Correlation zwraca współczynnik korelacji produktu scalar Pearson (próbka). Współczynnik korelacji Pearson (często oznaczony jako r) waha się od +1 do -1.
+1
wskazuje silną dodatnią relację liniową-1
wskazuje silną korelację liniową ujemną0
określa żadną relację liniową między dwiema zmiennymi.
Interpretacja współczynników zależy bardzo od problemu, który modelujesz, i zmiennych, które badasz. Dlatego ważne jest zrozumienie kontekstu danych podczas raportowania i interpretowania współczynnika korelacji Pearsona.
Jeśli masz pewne zmienne niezwiązane, a jednak współczynnik korelacji Pearsona jest silnie dodatni (r.5 > lub tak), należy dokładniej zbadać.
Jeśli używasz korelacji liniowej dla dwóch zmiennych, które wiesz, że są idealnie skorelowane, a wartości współczynników nie są oczekiwane, może to wskazywać na problem w danych.
Wyniki dla więcej niż dwóch kolumn
Biorąc pod uwagę macierz (czyli więcej niż dwie kolumny funkcji), moduł Compute Linear Correlation zwraca zestaw korelacji momentów produktu Pearson między każdą parą kolumn funkcji.
W związku z tym wynik jest tabelą n x n zawierającą współczynniki dla każdej kombinacji n kolumn. Jeśli jakiekolwiek kolumny nie spełniają kryteriów, zwracana jest wartość NaN ("nie liczba".
Załóżmy na przykład, że przekazano dwie kolumny wheel-base
liczbowe i curb-weight
jedną kolumnę make
kategorii (z zestawu danych Ceny samochodów). Wynikiem jest tabela współczynników 3x3 dla wszystkich możliwych kombinacji kolumn wejściowych:
make |
wheel-base |
curb-weight |
---|---|---|
Nan | Nan | Nan |
Nan | 1 | 0.776386 |
Nan | 0.776386 | 1 |
W tej tabeli wiersze są zrozumiałe, aby reprezentować każdą ze zmiennychmake
, wheel-base
, i curb-weight
, w tej kolejności.
- Wartość r dla samej korelacji
wheel-base
wynosi 1. - Wartość r dla korelacji
wheel-base
curb-weight
to 0,776386. - Wszystkie korelacje z udziałem kolumny
make
powodują naN, w tym korelację z samym sobą, ponieważmake
jest funkcją ciągu.
Zalecamy usunięcie kolumn nieliczbowych, aby uniknąć złożonych tabel z wieloma wartościami bez znaczenia.
Przykłady
Aby zobaczyć, jak ten moduł jest używany w eksperymentach uczenia maszynowego, zobacz Galerię sztucznej inteligencji platformy Azure:
- Przetwarzanie danych i analiza: w tym przykładzie przedstawiono wiele technik modyfikowania danych. Korelacja liniowa obliczeniowa służy do identyfikowania potencjalnych kolumn funkcji.
Uwagi techniczne
Ta sekcja zawiera szczegóły implementacji, porady i odpowiedzi na często zadawane pytania.
Szczegóły implementacji
Jeśli kolumna przekazywana jako dane wejściowe zawiera skalarne, tablice wejściowe (x i y) są traktowane jako wektory, a korelacja momentu produktu Pearson jest obliczana w następujący sposób:
W tej formule każda tablica zawiera n elementów, a środki próbek x i y są odpowiednio μx i μy.
W przypadku macierzy macierz macierzy danych (X) jest danymi wejściowymi, w których każda kolumna reprezentuje wektor wartości. Macierz danych powinna mieć wartość n-by-m. Dane wyjściowe to macierz m-by-m, R zgodnie z definicją
W tej formule μx reprezentuje średnią wartość kolumny xi. Elementy W I,j zawsze równe 1, ponieważ reprezentują korelację wektora z samym sobą.
Oczekiwane dane wejściowe
Nazwa | Typ | Opis |
---|---|---|
Zestaw danych | Tabela danych | Wejściowy zestaw danych |
Dane wyjściowe
Nazwa | Typ | Opis |
---|---|---|
Zestaw danych wyników | Tabela danych | Macierz korelacji |
Wyjątki
Wyjątek | Opis |
---|---|
Błąd 0003 | Wyjątek występuje, jeśli co najmniej jeden z danych wejściowych ma wartość null lub jest pusty. |
Błąd 0020 | Wyjątek występuje, jeśli liczba kolumn w niektórych zestawach danych przekazanych do modułu jest zbyt mała. |
Błąd 0021 | Wyjątek występuje, jeśli liczba wierszy w niektórych zestawach danych przekazanych do modułu jest za mała. |
Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kody błędów.
Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning kody błędów interfejsu API REST.