Eksploracja danych wykorzystuje wiele metod obliczeniowych i algorytmów do pracy nad wydobyciem wiedzy. Klasyfikacja jest prawdopodobnie najbardziej podstawową formą analizy danych. Powszechnym zadaniem w eksploracji danych jest badanie danych, w których klasyfikacja jest nieznana lub pojawi się w przyszłości, w celu przewidzenia, jaka jest lub będzie ta klasyfikacja. Podobnie, dane, w których klasyfikacja jest znana, są wykorzystywane do opracowania reguł, które są następnie stosowane do danych, w których klasyfikacja jest nieznana. W związku z tym, techniki eksploracji danych występują w dwóch głównych formach: nadzorowanej i nienadzorowanej. Nadzorowana jest techniką predykcyjną, natomiast nienadzorowana jest techniką opisową. Chociaż oba algorytmy są szeroko stosowane do realizacji różnych zadań eksploracji danych, ważne jest, aby zrozumieć różnicę między nimi.

Co to jest nadzorowana eksploracja danych (Supervised Data Mining)?

Nadzorowana eksploracja danych, jak sama nazwa wskazuje, odnosi się do algorytmów uczenia się, które są używane w klasyfikacji i predykcji. Nadzorowany algorytm uczy się z danych treningowych, które są oznakowane, a zadanie jest kontrolowane przez inżyniera wiedzy i projektanta systemu. W przypadku danych nadzorowanych musimy mieć znane wejścia odpowiadające znanym wyjściom, określonym przez ekspertów domeny. Zadanie eksploracji danych jest często nazywane uczeniem nadzorowanym, ponieważ klasy są określane przed badaniem danych. Technika ta wykorzystuje funkcję celu (zmienną zależną) oraz zbiór elementów danych, które są zmiennymi niezależnymi. Technika nadzorowana próbuje zidentyfikować zależności pomiędzy zmiennymi zależnymi i niezależnymi, określić stopień korelacji dla każdego zestawu zmiennych oraz zbudować model pokazujący sieć zależności. Model ten jest następnie stosowany do danych, dla których wartość docelowa jest nieznana.





Co to jest Unsupervised Data Mining?

W przeciwieństwie do technik nadzorowanych, nienadzorowana eksploracja danych nie ma z góry określonej funkcji celu, ani nie przewiduje wartości docelowej. Techniki nienadzorowane to takie, w których nie ma zmiennej wynikowej do przewidzenia lub sklasyfikowania. Stąd nie ma uczenia się z przypadków, w których taka zmienna wynikowa jest znana. Algorytm wymaga od użytkownika określenia liczby przedziałów i/lub tego, ile punktów danych powinno znaleźć się w danym przedziale. Pomaga on w identyfikacji wszelkiego rodzaju nieznanych wzorców w danych. Model nienadzorowany nazywany jest również modelem opisowym, ponieważ poszukuje nieznanych wzorców w zbiorze danych bez z góry ustalonych etykiet i bez lub z minimalnym nadzorem człowieka. Metody uczenia nienadzorowanego obejmują klasteryzację, asocjację i metody ekstrakcji. Ten rodzaj techniki uczenia się jest stosowany, gdy nie ma określonego celu lub gdy użytkownik szuka ukrytych zależności w danych.

Różnica między nadzorowaną i nie nadzorowaną metodą eksploracji danych

Dane

– Uczenie nadzorowane to zadanie eksploracji danych polegające na wykorzystaniu algorytmów do opracowania modelu na znanych danych wejściowych i wyjściowych, co oznacza, że algorytm uczy się z danych, które są oznakowane w celu przewidzenia wyniku z danych wejściowych. Technika nadzorowana to po prostu uczenie się z zestawu danych treningowych. Z kolei uczenie bez nadzoru to technika stosowania algorytmów, w której nie ma zmiennej wynikowej do przewidywania lub klasyfikowania, co oznacza, że nie ma uczenia się z przypadków, w których taka zmienna wynikowa jest znana.



Goal

– Technika nadzorowana próbuje zidentyfikować przypadkowe związki między zmiennymi zależnymi i niezależnymi, wyodrębnić stopień korelacji dla każdego zestawu zmiennych i opracować model pokazujący sieć zależności. Model ten jest następnie stosowany do danych, dla których wartość docelowa jest nieznana. Uczenie bez nadzoru ma na celu zidentyfikowanie nieznanych wzorców w zbiorze danych bez z góry ustalonych etykiet i bez lub z minimalnym nadzorem człowieka. Celem technik eksploracji danych bez nadzoru jest znalezienie wzorców w zbiorze danych na podstawie relacji pomiędzy samymi punktami danych.



Metoda

– Modele nadzorowane to modele wykorzystywane w klasyfikacji i predykcji, stąd nazywane są modelami predykcyjnymi, ponieważ uczą się z danych treningowych, czyli danych, na podstawie których algorytm klasyfikacji lub predykcji uczy się. Gdy algorytm nauczy się na danych treningowych, jest następnie stosowany do innej próbki danych, gdzie wynik jest znany. Metody obejmują następujące funkcje nadzorowane: klasyfikacja, regresja i wykrywanie anomalii. Nienadzorowana eksploracja danych pomaga zidentyfikować wszelkiego rodzaju nieznane wzorce w danych przy użyciu metod takich jak grupowanie, asocjacja i ekstrakcja.

Skalowalność

– Skalowalność jest jednym z głównych problemów związanych z eksploracją dużych zbiorów danych, a parsowanie całego zbioru danych więcej niż raz nie jest praktyczne. Nadzorowana eksploracja danych ma tendencję do wysokiej skalowalności, co oznacza, że może obsługiwać ogromne ilości danych w ramach czasowych, które nie zwiększają się nieracjonalnie, i jest ogólnie szybka. Metody uczenia bez nadzoru, z drugiej strony, często podnoszą kilka problemów, jeśli chodzi o skalowalność, jeśli jakiś rodzaj równoległej oceny nie jest używany, i w przeciwieństwie do uczenia nadzorowanego, jest stosunkowo powolny, ale może zbiegać w kierunku wielu zestawów stanów rozwiązań.

Podsumowanie



W skrócie, nadzorowana eksploracja danych jest techniką predykcyjną, natomiast nienadzorowana eksploracja danych jest techniką opisową. Techniki nadzorowane są stosowane, gdy dostępny jest określony cel, a użytkownik stara się określić, jak zmiany stanu danych wpływają na wynik. Z kolei nienadzorowana eksploracja danych zaczyna się od czystego konta, co oznacza, że nie ma z góry zdefiniowanej funkcji celu, a użytkownik próbuje znaleźć nieznane wzorce lub ukryte relacje w danych. Celem nienadzorowanej eksploracji danych jest znalezienie wzorców w zbiorze danych na podstawie relacji pomiędzy samymi punktami danych.