Korelacja liniowa obliczeniowa

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Oblicza korelację liniową między wartościami kolumn w zestawie danych

Kategoria: Funkcje statystyczne

Uwaga

Dotyczy: tylko Machine Learning Studio (wersja klasyczna)

Podobne moduły przeciągania i upuszczania są dostępne w projektancie Azure Machine Learning.

Omówienie modułu

W tym artykule opisano sposób użycia modułu Korelacja liniowa obliczeniowa w programie Machine Learning Studio (klasycznym), aby obliczyć zestaw współczynników korelacji Pearson dla każdej możliwej pary zmiennych w zestawie danych wejściowych.

Współczynnik korelacji Pearson, czasami nazywany testem R Pearsona, jest wartością statystyczną, która mierzy relację liniową między dwiema zmiennymi. Badając wartości współczynników, można wywnioskować coś na temat siły relacji między dwiema zmiennymi i czy są one pozytywnie skorelowane, czy negatywnie skorelowane.

Jak skonfigurować korelację liniową

Przed obliczeniem współczynnika korelacji istnieją pewne wymagania wstępne, takie jak czyszczenie danych i sprawdzanie, czy relacja między zmiennymi jest odpowiednia dla tego modułu. Należy również usunąć lub przypisać brakujące wartości.

Podczas korzystania z tego modułu obowiązują następujące ograniczenia:

  • Moduł Korelacja liniowa obliczeniowa może przetwarzać tylko wartości liczbowe. Wszystkie inne typy wartości, w tym brakujące wartości, wartości nieliczbowe i wartości kategorii, są traktowane jako NaNs.

  • Korelacja Pearsona jest obliczana dla wszystkich kolumn liczbowych w zestawie danych przekazywanych jako dane wejściowe. Pamiętaj, aby wykluczyć wszystkie kolumny, które są odpowiednie dla tej analizy.

  • Korelacja liniowa obliczeniowa nie może być używana z danymi, które mają brakujące wartości.

Krok 1. Określanie liniowości

Jeśli kolumny, które testujesz, nie mają jakiejś relacji liniowej, nie ma sensu generować tego współczynnika. Warto więc najpierw przetestować kolumny, aby sprawdzić, czy mają właściwy rodzaj danych i właściwy rodzaj dystrybucji w ogóle.

Istnieją różne sposoby określania, czy relacja między kolumnami jest w przybliżeniu liniowa:

  • Utwórz wykres punktowy zmiennych w programie Studio (klasycznym), używając opcji Wizualizuj w zestawie danych. Kliknij jedną z kolumn zmiennej liczbowej, rozwiń węzeł Wizualizacje i kliknij przycisk porównaj. Wybierz inną zmienną, a wykres punktowy jest generowany automatycznie. Jeśli zostanie wygenerowany inny typ wykresu, oznacza to, że co najmniej jedna kolumna ma inny typ danych (nieliczbowy).

  • Oblicz równanie regresji dla dwóch zmiennych. Istnieje wiele pakietów języka R, które obsługują tę obsługę, które można załadować i użyć w module Execute R Script (Wykonywanie skryptu języka R ).

Krok 2. Czyszczenie danych

Musisz usunąć lub wypełnić brakujące wartości, usunąć lub wyciąć wartości odstające i upewnić się, że kolumny mają odpowiedni typ danych.

Pamiętaj, aby sprawdzić symbole zastępcze i zastąpić taką wartość innymi odpowiednimi wartościami przed użyciem tego modułu. Jeśli w polu NaNs wstawiono brakujące wartości, gdy zestaw danych został załadowany ze źródła, może to spowodować błąd. Wartości symboli zastępczych, takie jak 999 lub -1 mogą również powodować nieprawidłowe wyniki.

Aby przygotować dane, możesz użyć następujących modułów:

Typ danych kolumn można dostosować za pomocą funkcji Edytuj metadane. Upewnij się, że kolumny, które chcesz przeanalizować, są oznaczone jako kolumny funkcji.

Krok 3. Generowanie współczynnika

  1. Dodaj moduł Korelacja liniowa obliczeniowa do eksperymentu. Ten moduł można znaleźć w kategorii Funkcje statystyczne w programie Machine Learning Studio (wersja klasyczna).

  2. Dodaj zestaw danych, który chcesz przeanalizować.

  3. Zalecamy dodanie modułu Select Columns in Dataset (Wybieranie kolumn w zestawie danych) między zestawem danych a modułem Compute Linear Correlation (Korelacja liniowa obliczeniowa ), aby usunąć niepotrzebne kolumny. Skonfiguruj moduł Select Columns in Dataset (Wybieranie kolumn w zestawie danych), aby uzyskać tylko dwie kolumny liczbowe, dla których mają być obliczane współczynniki.

    W przeciwnym razie moduł Compute Linear Correlation (Korelacja liniowa obliczeniowa ) może wygenerować wiele kolumn sieci NaNs.

  4. Brak parametrów do ustawienia dla tego modułu. Jednak nie powiedzie się, jeśli kolumny przekazane jako dane wejściowe nie spełniają wymagań.

  5. Uruchom eksperyment.

Wyniki dla dwóch kolumn

Biorąc pod uwagę dwie kolumny funkcji, moduł Compute Linear Correlation zwraca współczynnik korelacji produktu scalar Pearson (próbka). Współczynnik korelacji Pearson (często oznaczony jako r) waha się od +1 do -1.

  • +1 wskazuje silną dodatnią relację liniową

  • -1 wskazuje silną korelację liniową ujemną

  • 0 określa żadną relację liniową między dwiema zmiennymi.

Interpretacja współczynników zależy bardzo od problemu, który modelujesz, i zmiennych, które badasz. Dlatego ważne jest zrozumienie kontekstu danych podczas raportowania i interpretowania współczynnika korelacji Pearsona.

  • Jeśli masz pewne zmienne niezwiązane, a jednak współczynnik korelacji Pearsona jest silnie dodatni (r.5 > lub tak), należy dokładniej zbadać.

  • Jeśli używasz korelacji liniowej dla dwóch zmiennych, które wiesz, że są idealnie skorelowane, a wartości współczynników nie są oczekiwane, może to wskazywać na problem w danych.

Wyniki dla więcej niż dwóch kolumn

Biorąc pod uwagę macierz (czyli więcej niż dwie kolumny funkcji), moduł Compute Linear Correlation zwraca zestaw korelacji momentów produktu Pearson między każdą parą kolumn funkcji.

W związku z tym wynik jest tabelą n x n zawierającą współczynniki dla każdej kombinacji n kolumn. Jeśli jakiekolwiek kolumny nie spełniają kryteriów, zwracana jest wartość NaN ("nie liczba".

Załóżmy na przykład, że przekazano dwie kolumny wheel-base liczbowe i curb-weight jedną kolumnę make kategorii (z zestawu danych Ceny samochodów). Wynikiem jest tabela współczynników 3x3 dla wszystkich możliwych kombinacji kolumn wejściowych:

make wheel-base curb-weight
Nan Nan Nan
Nan 1 0.776386
Nan 0.776386 1

W tej tabeli wiersze są zrozumiałe, aby reprezentować każdą ze zmiennychmake, wheel-base, i curb-weight, w tej kolejności.

  • Wartość r dla samej korelacji wheel-base wynosi 1.
  • Wartość r dla korelacji wheel-basecurb-weight to 0,776386.
  • Wszystkie korelacje z udziałem kolumny make powodują naN, w tym korelację z samym sobą, ponieważ make jest funkcją ciągu.

Zalecamy usunięcie kolumn nieliczbowych, aby uniknąć złożonych tabel z wieloma wartościami bez znaczenia.

Przykłady

Aby zobaczyć, jak ten moduł jest używany w eksperymentach uczenia maszynowego, zobacz Galerię sztucznej inteligencji platformy Azure:

Uwagi techniczne

Ta sekcja zawiera szczegóły implementacji, porady i odpowiedzi na często zadawane pytania.

Szczegóły implementacji

Jeśli kolumna przekazywana jako dane wejściowe zawiera skalarne, tablice wejściowe (x i y) są traktowane jako wektory, a korelacja momentu produktu Pearson jest obliczana w następujący sposób:

linear correlation formula

W tej formule każda tablica zawiera n elementów, a środki próbek x i y są odpowiednio μx i μy.

W przypadku macierzy macierz macierzy danych (X) jest danymi wejściowymi, w których każda kolumna reprezentuje wektor wartości. Macierz danych powinna mieć wartość n-by-m. Dane wyjściowe to macierz m-by-m, R zgodnie z definicją

formula for linear correlation

W tej formule μx reprezentuje średnią wartość kolumny xi. Elementy W I,j zawsze równe 1, ponieważ reprezentują korelację wektora z samym sobą.

Oczekiwane dane wejściowe

Nazwa Typ Opis
Zestaw danych Tabela danych Wejściowy zestaw danych

Dane wyjściowe

Nazwa Typ Opis
Zestaw danych wyników Tabela danych Macierz korelacji

Wyjątki

Wyjątek Opis
Błąd 0003 Wyjątek występuje, jeśli co najmniej jeden z danych wejściowych ma wartość null lub jest pusty.
Błąd 0020 Wyjątek występuje, jeśli liczba kolumn w niektórych zestawach danych przekazanych do modułu jest zbyt mała.
Błąd 0021 Wyjątek występuje, jeśli liczba wierszy w niektórych zestawach danych przekazanych do modułu jest za mała.

Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kody błędów.

Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning kody błędów interfejsu API REST.

Zobacz też

Funkcje statystyczne
Lista modułów A-Z