Ocena modelu ML.NET za pomocą metryk

Omówienie metryk używanych do oceny modelu ML.NET.

Metryki oceny są specyficzne dla typu zadania uczenia maszynowego, które wykonuje model.

Na przykład w przypadku zadania klasyfikacji model jest oceniany przez pomiar, jak dobrze przewidywana kategoria odpowiada rzeczywistej kategorii. W przypadku klastrowania ocena zależy od tego, jak blisko siebie znajdują się elementy klastrowane i ile jest separacji między klastrami.

Metryki oceny klasyfikacji binarnej

Mierniki opis Szukać
Dokładność Dokładność to proporcja prawidłowych przewidywań z zestawem danych testowych. Jest to stosunek liczby poprawnych przewidywań do całkowitej liczby próbek wejściowych. Działa dobrze, jeśli istnieje podobna liczba próbek należących do każdej klasy. Im bliżej 1,00, tym lepiej. Jednak dokładnie 1,00 wskazuje na problem (często: wyciek etykiety/celu, nadmierne dopasowanie lub testowanie danych treningowych). Gdy dane testowe są niezrównoważone (gdzie większość wystąpień należy do jednej z klas), zestaw danych jest mały lub ocenia metodę 0,00 lub 1,00, dokładność nie przechwytuje skuteczności klasyfikatora i trzeba sprawdzić dodatkowe metryki.
AUC aucROC lub Area pod krzywą mierzy obszar pod krzywą utworzoną przez zamiatanie rzeczywistego dodatniego współczynnika w porównaniu z fałszywie dodatnim współczynnikiem. Im bliżej 1,00, tym lepiej. Aby model był akceptowalny, powinien być większy niż 0,50. Model z wartością AUC 0,50 lub mniej jest bezwartościowy.
AUCPR aucPR lub Area pod krzywą krzywej Precyzja-kompletność: Przydatna miara sukcesu przewidywania, gdy klasy są nierównowagowane (wysoce niesymetryczne zestawy danych). Im bliżej 1,00, tym lepiej. Wysokie wyniki zbliżone do 1,00 pokazują, że klasyfikator zwraca dokładne wyniki (wysoka precyzja) i zwraca większość wszystkich wyników dodatnich (wysoka kompletność).
Wynik F1 Wynik F1 znany również jako zrównoważony wynik F lub miara F. Jest to średnia harmoniczna precyzji i kompletności. Wynik F1 jest pomocny, gdy chcesz użyć równowagi między precyzją i kompletnością. Im bliżej 1,00, tym lepiej. Wynik F1 osiąga najlepszą wartość na poziomie 1,00 i najgorszy wynik na poziomie 0,00. Informuje o tym, jak precyzyjny jest klasyfikator.

Aby uzyskać więcej informacji na temat metryk klasyfikacji binarnej, przeczytaj następujące artykuły:

Metryki oceny dla klasyfikacji wieloklasowej i klasyfikacji tekstu

Mierniki opis Szukać
Mikrodłatność Mikrośrednią dokładność agreguje wkład wszystkich klas w celu obliczenia średniej metryki. Jest to ułamek wystąpień przewidywanych poprawnie. Mikrośrednia nie uwzględnia członkostwa w klasach. Zasadniczo każda para klas przykładowych przyczynia się równie do metryki dokładności. Im bliżej 1,00, tym lepiej. W zadaniu klasyfikacji wieloklasowej dokładność mikro-dokładności jest preferowana w stosunku do dokładności makr, jeśli podejrzewasz, że może wystąpić nierównowaga klas (tj. może istnieć wiele przykładów jednej klasy niż inne klasy).
Dokładność makr Średnia dokładność makro jest średnią dokładnością na poziomie klasy. Dokładność każdej klasy jest obliczana, a dokładność makr jest średnią z tych dokładności. Zasadniczo każda klasa przyczynia się równie do metryki dokładności. Klasy mniejszości mają taką samą wagę jak większe klasy. Metryka średniej makr daje taką samą wagę każdej klasie, niezależnie od liczby wystąpień z tej klasy, które zawiera zestaw danych. Im bliżej 1,00, tym lepiej. Oblicza metryki niezależnie dla każdej klasy, a następnie przyjmuje średnią (dlatego traktując wszystkie klasy w równym stopniu)
Utrata dziennika Utrata logarytmczna mierzy wydajność modelu klasyfikacji, w którym dane wejściowe przewidywania są wartością prawdopodobieństwa z zakresu od 0,00 do 1,00. Utrata dzienników zwiększa się wraz z różnicą przewidywanego prawdopodobieństwa z rzeczywistej etykiety. Im bliżej 0,00, tym lepiej. Idealny model miałby utratę dziennika 0,00. Celem naszych modeli uczenia maszynowego jest zminimalizowanie tej wartości.
Redukcja utraty dzienników Zmniejszenie strat logarytmicznych można interpretować jako zaletę klasyfikatora w przypadku przewidywania losowego. Zakresy od -inf i 1.00, gdzie 1.00 jest idealnymi przewidywaniami i 0,00 wskazuje średnie przewidywania. Jeśli na przykład wartość jest równa 0,20, można ją interpretować jako "prawdopodobieństwo poprawnego przewidywania jest o 20% lepsze niż losowe zgadywanie"

Mikrodłatność jest ogólnie lepiej zgodna z potrzebami biznesowymi prognoz uczenia maszynowego. Jeśli chcesz wybrać pojedynczą metrykę do wybrania jakości zadania klasyfikacji wieloklasowej, zwykle powinna to być dokładność mikroklasy.

Na przykład w przypadku zadania klasyfikacji biletów pomocy technicznej: (mapuje bilety przychodzące na zespoły pomocy technicznej)

  • Mikro-dokładności — jak często bilet przychodzący jest klasyfikowany do odpowiedniego zespołu?
  • Dokładność makr — dla przeciętnego zespołu, jak często jest prawidłowy bilet przychodzący dla swojego zespołu?

Dokładność makr ma nadwagę małych zespołów w tym przykładzie; mały zespół, który dostaje tylko 10 biletów rocznie liczy się tyle, ile duży zespół z 10 tys. biletów rocznie. Mikro-dokładności w tym przypadku koreluje lepiej z potrzebami biznesowymi: "ile czasu/pieniędzy może zaoszczędzić firma, automatyzując proces routingu biletów".

Aby uzyskać więcej informacji na temat metryk klasyfikacji wieloklasowej, przeczytaj następujące artykuły:

Metryki oceny dla regresji i rekomendacji

Zarówno zadania regresji, jak i rekomendacji przewidują liczbę. W przypadku regresji liczba może być dowolną właściwością wyjściową, która ma wpływ na właściwości wejściowe. W przypadku rekomendacji liczba jest zwykle wartością klasyfikacji (na przykład z zakresu od 1 do 5) lub zaleceniem tak/bez (reprezentowane odpowiednio przez 1 i 0).

Metryczne opis Szukać
R-Squared R-squared (R2) lub Współczynnik determinacji reprezentuje moc predykcyjną modelu jako wartość z zakresu od -inf do 1,00. 1.00 oznacza, że istnieje idealne dopasowanie, a dopasowanie może być arbitralnie słabe, więc wyniki mogą być ujemne. Wynik 0,00 oznacza, że model odgadnie oczekiwaną wartość etykiety. Ujemna wartość R2 wskazuje, że dopasowanie nie jest zgodne z trendem danych, a model działa gorzej niż losowe zgadywanie. Jest to możliwe tylko w przypadku modeli regresji nieliniowej lub regresji liniowej ograniczonej. R2 mierzy, jak blisko rzeczywistych wartości danych testowych są wartości przewidywane. Im bliżej 1,00, tym lepszej jakości. Jednak czasami niskie wartości r-kwadrat (takie jak 0,50) mogą być całkowicie normalne lub wystarczająco dobre dla scenariusza i wysokie wartości r-kwadrat nie zawsze są dobre i być podejrzane.
Utrata bezwzględna Bezwzględna utrata lub średni błąd bezwzględny (MAE) mierzy, jak blisko przewidywań są rzeczywiste wyniki. Jest to średnia wszystkich błędów modelu, gdzie błąd modelu jest bezwzględną odległością między przewidywaną wartością etykiety a poprawną wartością etykiety. Ten błąd przewidywania jest obliczany dla każdego rekordu zestawu danych testowych. Na koniec średnia wartość jest obliczana dla wszystkich zarejestrowanych błędów bezwzględnych. Im bliżej 0,00, tym lepszej jakości. Średni błąd bezwzględny używa tej samej skali co mierzone dane (nie jest znormalizowany do określonego zakresu). Utraty bezwzględnej, utraty kwadratowej i utraty usługi RMS można używać tylko do porównywania modeli dla tego samego zestawu danych lub zestawu danych z podobnym rozkładem wartości etykiety.
Strata kwadratowa Błąd średniokwadratowy lub błąd średniokwadratowy (MSE), nazywany również odchyleniem średniokwadratowym (MSD), informuje, jak blisko linii regresji jest zestaw wartości danych testowych, biorąc odległości od punktów do linii regresji (te odległości są błędami E) i ich kwadratem. Kwadratura daje większą wagę większym różnicom. Zawsze jest to wartość nieujemna, a wartości zbliżone do 0,00 są lepsze. W zależności od danych może być niemożliwe uzyskanie bardzo małej wartości błędu średniokwadratowego.
Utrata usługi RMS Utrata usługi RMS lub błąd średniokwadratowy (RMSE, Root Mean Square Deviation, RMSD) mierzy różnicę między wartościami przewidywanymi przez model i wartościami obserwowanym w środowisku, które jest modelowane. Utrata RMS jest pierwiastek kwadratowy utraty kwadratu i ma te same jednostki co etykieta, podobnie jak utrata bezwzględna, choć dając więcej wagi do większych różnic. Główny błąd średniokwadratowy jest często używany w analizie climatologii, prognozowania i regresji w celu zweryfikowania wyników eksperymentalnych. Zawsze jest to wartość nieujemna, a wartości zbliżone do 0,00 są lepsze. USŁUGA RMSD to miara dokładności do porównywania błędów prognozowania różnych modeli dla określonego zestawu danych, a nie między zestawami danych, ponieważ jest zależna od skali.

Aby uzyskać więcej informacji na temat metryk regresji, przeczytaj następujące artykuły:

Metryki oceny dla klastrowania

Metryczne opis Szukać
Średnia odległość Średnia odległość między punktami danych a centrum przypisanego klastra. Średnia odległość to miara zbliżenia punktów danych do centroidów klastra. Jest to miara tego, jak "napięty" jest klaster. Wartości bliżej 0 są lepsze. Im bliżej zera jest średnia odległość, tym bardziej klastrowane są dane. Należy jednak pamiętać, że ta metryka zmniejszy się, jeśli liczba klastrów zostanie zwiększona, a w skrajnym przypadku (gdzie każdy odrębny punkt danych jest własnym klastrem) będzie równy zero.
Indeks Davies Bouldin Średni stosunek odległości w obrębie klastra do odległości między klastrami. Im ściślejszy klaster i tym dalej znajdują się klastry, tym niższa jest ta wartość. Wartości bliżej 0 są lepsze. Klastry, które są dalej i mniej rozproszone, spowodują lepszą ocenę.
Znormalizowane wzajemne informacje Może być używany, gdy dane szkoleniowe używane do trenowania modelu klastrowania są również dostarczane z etykietami podstawowych prawdy (czyli nadzorowanym klastrowaniem). Metryka Znormalizowane wzajemne informacje mierzy, czy podobne punkty danych są przypisywane do tego samego klastra i różne punkty danych są przypisywane do różnych klastrów. Znormalizowane wzajemne informacje są wartością z zakresu od 0 do 1. Wartości bliżej 1 są lepsze.

Metryki oceny dla klasyfikacji

Metryczne opis Szukać
Obniżone skumulowane zyski Obniżony skumulowany zysk (DCG) to miara jakości klasyfikacji. Pochodzi ona z dwóch założeń. Jeden: Bardzo istotne elementy są bardziej przydatne podczas wyświetlania wyższego w kolejności klasyfikacji. Dwa: Użyteczność śledzi istotność, co oznacza, że im większe znaczenie, tym bardziej przydatny jest element. Zysk skumulowany z rabatem jest obliczany dla określonej pozycji w kolejności klasyfikacji. Sumuje klasyfikację istotności podzieloną przez logarytm indeksu rankingowego do pozycji zainteresowania. Jest obliczana przy użyciu wartości $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$ Klasyfikacja istotności jest dostarczana do algorytmu trenowania klasyfikacji jako etykiet praw podstawowych. Jedna wartość DCG jest udostępniana dla każdej pozycji w tabeli klasyfikacji, dlatego nazwa Discounted Cumulative Gains (Rabaty skumulowane zyski). Wyższe wartości są lepsze.
Znormalizowane skumulowane zyski z rabatu Normalizacja dcG umożliwia porównywanie metryki dla list klasyfikacji o różnych długościach. Wartości bliżej 1 są lepsze.

Metryki oceny wykrywania anomalii

Metryczne opis Szukać
Obszar pod krzywą ROC Obszar pod krzywą operatora odbiorcy mierzy, jak dobrze model oddziela nietypowe i zwykłe punkty danych. Wartości bliżej 1 są lepsze. Tylko wartości większe niż 0,5 pokazują skuteczność modelu. Wartości 0,5 lub poniżej wskazują, że model nie jest lepszy niż losowo przydzielanie danych wejściowych do nietypowych i zwykłych kategorii.
Wskaźnik wykrywania przy liczbie wyników fałszywie dodatnich Współczynnik wykrywania w liczbie wyników fałszywie dodatnich jest współczynnikiem liczby poprawnie zidentyfikowanych anomalii do całkowitej liczby anomalii w zestawie testów, indeksowanych przez każdy wynik fałszywie dodatni. Oznacza to, że istnieje wartość współczynnika wykrywania przy liczbie wyników fałszywie dodatnich dla każdego elementu fałszywie dodatniego. Wartości bliżej 1 są lepsze. Jeśli nie ma wyników fałszywie dodatnich, ta wartość to 1.

Metryki oceny dla podobieństwa zdań

Metryczne opis Szukać
Korelacja Pearson Korelacja Pearson, znana również jako współczynnik korelacji, mierzy zależność lub relację między dwoma zestawami danych. Wartości bezwzględne bliżej 1 są najbardziej podobne. Ta metryka waha się od -1 do 1. Wartość bezwzględna 1 oznacza, że zestawy danych są identyczne. Wartość 0 oznacza, że nie ma relacji między dwoma zestawami danych.