Żyjemy w świecie, w którym algorytmy są wszędzie i wielu z nas korzysta z nich, może nawet nie zdając sobie sprawy, że algorytm jest zaangażowany. Aby rozwiązać problem na komputerze, potrzebujemy algorytmu. Uczenie maszynowe zależy od wielu algorytmów do przekształcania zbiorów danych w modele. Tendencyjność i wariancja to dwa podstawowe pojęcia dla uczenia maszynowego. Ważne jest, aby zrozumieć te dwa, jeśli chodzi o dokładność w dowolnym algorytmie uczenia maszynowego.

Co to jest skośność?

Błąd przewidywania dla dowolnego algorytmu uczenia maszynowego można podzielić na trzy części – błąd stronniczości, błąd wariancji i błąd nieredukowalny. Bias jest zjawiskiem, które występuje w modelu uczenia maszynowego z powodu błędnych założeń w procesie uczenia maszynowego. Bias jest jak błąd systematyczny, który pojawia się, gdy algorytm daje wyniki, które są systematycznie tendencyjne z powodu pewnych nieprawidłowych założeń w procesie uczenia maszynowego. Są to założenia przyjęte przez model, aby ułatwić uczenie się funkcji docelowej.

Wysoka stronniczość oznacza, że błąd w danych treningowych, jak i testowych jest większy. Zawsze zaleca się, aby algorytm był nisko stronniczy, aby uniknąć problemu niedopasowania. Powiedzmy, że wybrałeś model, który nie może wyprowadzić nawet istotnych wzorców z zestawu danych – nazywa się to niedopasowaniem. Tak więc, najprościej mówiąc, stronniczość występuje w sytuacji, gdy użyłeś algorytmu i nie jest on prawidłowo dopasowany.





Co to jest wariancja?

Wariancja to zmiana w dokładności przewidywania uczenia maszynowego między danymi treningowymi a danymi testowymi. Jeśli zmienność w zbiorze danych przynosi zmianę w wydajności modelu, nazywa się to błędem wariancji. Jest to kwota, o jaką zmieni się estymacja funkcji celu, gdyby użyto innych danych treningowych. Funkcja celu jest zakładana na podstawie danych treningowych przez algorytm uczenia maszynowego, więc pewna wariancja w algorytmie jest spodziewana.

Wariancja zależy od pojedynczego zestawu treningowego i określa niespójność różnych przewidywań przy użyciu różnych zestawów treningowych. Niska wariancja sugeruje małe zmiany w estymacji funkcji celu przy zmianach w zbiorze danych szkoleniowych, natomiast wysoka wariancja sugeruje duże zmiany w estymacji funkcji celu przy zmianach w zbiorze danych szkoleniowych. Algorytmy uczenia maszynowego z wysoką wariancją są pod silnym wpływem specyfiki danych treningowych.

Różnica między skośnością a wariancją

Znaczenie



– Bias jest zjawiskiem, które występuje w modelu uczenia maszynowego, gdzie użyłeś algorytmu i nie pasuje prawidłowo. Oznacza to, że użyta tu funkcja ma małe znaczenie dla scenariusza i nie jest w stanie wydobyć prawidłowych wzorców. Wariancja z kolei określa, o ile zmieni się estymacja funkcji celu, jeśli zostaną użyte różne dane treningowe. Mówi o tym, jak bardzo zmienna losowa odbiega od swojej wartości oczekiwanej.



Scenariusz

– Bias to różnica między wartościami przewidywanymi a rzeczywistymi. Niska skośność sugeruje mniej założeń dotyczących postaci funkcji celu, natomiast wysoka skośność sugeruje więcej założeń dotyczących postaci funkcji celu. Przypadek, w którym model nie jest w stanie znaleźć wzorców w zbiorze treningowym, nazywany jest niedopasowaniem. Wariancja jest wtedy, gdy model uwzględnia fluktuacje w danych. Model sprawdza się dobrze na danych testowych i uzyskuje wysoką dokładność, ale nie sprawdza się na nowych i niewidzianych danych.

Podsumowanie

Niezależnie od tego, jaki masz model, powinien on stanowić idealną równowagę między stronniczością i wariancją. Celem każdego nadzorowanego algorytmu uczenia maszynowego jest osiągnięcie niskiego biasu i niskiej wariancji. Jednak taki scenariusz nie jest możliwy, ponieważ oba te czynniki są ze sobą odwrotnie powiązane i praktycznie niemożliwe jest posiadanie modelu uczenia maszynowego o niskiej skośności i niskiej wariancji. W przeciwieństwie do stronniczości, wariancja jest wtedy, gdy model uwzględnia wahania w danych, a nawet szum. Jeśli spróbujesz zmienić algorytm, aby lepiej pasował do danego zestawu danych, może zmienić się w niską stronniczość, ale zwiększy wariancję.

Co to jest bias i wariancja z przykładem?

Bias w uczeniu maszynowym jest zjawiskiem, które występuje, gdy algorytm jest używany i nie jest prawidłowo dopasowany. Niektóre przykłady stronniczości to confirmation bias, stability bias i availability bias. Algorytmy ML o niskiej wariancji obejmują regresję liniową, regresję logistyczną i liniową analizę dyskryminacyjną.



Jakie są cztery rodzaje stronniczości w uczeniu maszynowym?

Cztery rodzaje stronniczości obejmują stronniczość selekcji, wartości odstające, stronniczość pomiaru, stronniczość wycofania i inne.