Widzenie komputerowe dzieli wiele podobieństw z widzeniem ludzkim, ale istnieją między nimi istotne różnice. Ludzkie widzenie to złożony proces, który wciąż nie jest całkowicie zrozumiały. Widzenie komputerowe jest technologiczną implementacją ludzkiego widzenia, która umożliwia komputerom osiągnięcie zdolności widzenia człowieka. Przyglądamy się obu tym zjawiskom i staramy się zrozumieć różnice między nimi.

Czym jest ludzkie widzenie?

Ludzkie widzenie to złożony proces, który wciąż nie jest w pełni zrozumiały. Wzrok jest bez wątpienia jednym z najważniejszych z pięciu zmysłów i jest tym, na którym człowiek musi polegać ponad wszystkimi innymi. Widzenie to specjalny zmysł wzroku, który obraca się wokół światła. Fascynujące jest to, jak ludzki system wzrokowy postrzega i interpretuje rzeczy. Widzimy rzeczy takimi, jakimi są – drzewa w lesie, książki na półce, widżety w fabryce, samochody na drodze i chmury na niebie. Nie ma oczywistych dedukcji, a do interpretacji każdego obiektu czy sceny potrzebny jest dodatkowy wysiłek.

Wszystkie te rzeczy zależą od oczu i tego, jak wykrywają wzorce świetlne i koordynują z mózgiem tłumaczenie światła na obrazy, które widzimy. Ludzkie oko jest złożonym systemem optycznym, podobnie jak aparat fotograficzny; światło odbija się od obiektu, na który patrzysz i wchodzi do oczu przez rogówkę. Następnie światło przechodzi przez źrenicę i tęczówkę, które razem kontrolują ilość światła wpadającego do oczu. Gdy wszystkie te elementy współpracują ze sobą, skupiają światło na tylnej części oka, zwanej siatkówką. Kiedy światło trafia na siatkówkę, maleńkie komórki w siatkówce przekształcają je w sygnały elektryczne.

Co to jest widzenie komputerowe?

Wizja komputerowa jest formą sztucznej inteligencji (AI), która pozwala komputerom zobaczyć i zrozumieć zawartość obrazów cyfrowych, takich jak zdjęcia i filmy. Pozwala to komputerowi wyczuć swoje otoczenie i zidentyfikować rzeczy, podobnie jak ludzka wizja postrzega rzeczy. Wykorzystują one algorytmy do zbierania wstępnie zdefiniowanych cech ludzkiego wzroku i generowania modeli i programów symulujących zdolności ludzkiego wzroku w komputerach. Daje to komputerom zdolność do pozyskiwania, analizowania i przetwarzania informacji wizualnych tak, jak robi to ludzki wzrok.

Jednym z najczęstszych wdrożeń wizji komputerowej jest rozpoznawanie twarzy, które jest używane do zabezpieczenia dostępu do urządzeń mobilnych. Ideą wizji komputerowej jest wydobycie użytecznych informacji z obrazów i podjęcie odpowiednich działań w oparciu o te informacje. Zasadniczo replikuje ono ludzki system wizyjny, więc komputery mogą wykonywać wiele z pracy ludzi. W przypadku prostych zadań mechanicznych nie jest to szczególnie trudne, ale w przypadku złożonych zadań maszyna musi być przeszkolona w zakresie wizualizacji i rozumienia danych wizualnych.

Różnica między widzeniem komputerowym a widzeniem człowieka

Percepcja

– Ludzie widzą obiekty, sceny, wzory i ludzi takimi, jakimi są, jak drzewa w krajobrazie, ludzie w samochodzie, chmury na niebie czy książki na półce. Ludzie postrzegają rzeczy takimi, jakimi są i zachowują to, co rozpoznają, przechowując to głęboko w mózgu, dopóki nie natkną się na te rzeczy ponownie. Żadne oczywiste dedukcje ani dodatkowy wysiłek nie są wymagane w przypadku każdego obiektu lub ludzi. Wizja komputerowa, z drugiej strony, pozwala komputerowi wyczuć swoje otoczenie i zidentyfikować rzeczy, podobnie jak ludzka wizja postrzega rzeczy.

Praca

– Ludzka wizja to wszystko o oczach i o tym, jak wykrywają wzorce świetlne i koordynują się z mózgiem, aby przetłumaczyć światło na obrazy, które widzimy. Ludzkie oko jest jak kamera, która potrzebuje światła; kiedy światło uderza w oczy, tworzy określony kąt i obraz powstaje w siatkówce w tylnej części oka, a następnie obraz jest odwrócony. Ludzka wizja wymaga koordynacji oka i mózgu, aby działać. Wizja komputerowa wykorzystuje techniki uczenia maszynowego i algorytmy do identyfikowania, rozróżniania i klasyfikowania obiektów według rozmiaru lub koloru oraz do odkrywania i interpretowania wzorców w danych wizualnych, takich jak zdjęcia i filmy. Wizja komputerowa symuluje ludzkie widzenie, identyfikując obiekty w swoim polu widzenia.

Rozpoznawanie obiektów

– Jedną z kluczowych zdolności ludzkiego systemu wizyjnego jest niezmienne rozpoznawanie obiektów, co oznacza, że ludzie mogą natychmiast i dokładnie identyfikować obiekty w różnych wariantach. Ludzie rozpoznają obiekty bez wysiłku i nie mają problemów z opisaniem obiektów w scenie, nawet jeśli nigdy wcześniej nie widzieli tych obiektów. Rozpoznawanie obiektów 3D na podstawie pojedynczego obrazu 2D jest jednym z najtrudniejszych problemów w dziedzinie widzenia komputerowego. Komputer musi wyodrębnić z obrazu zestaw cech, aby stworzyć opisy obrazu różne od tablicy wartości pikseli.

Podsumowanie



Dla prostych zadań mechanicznych nie jest szczególnie trudno skłonić maszyny do wykonania dużej części pracy. Jednak w przypadku bardziej złożonych zadań, maszyny muszą otrzymać zmysł ludzkiego widzenia. Ta zdolność do umożliwienia komputerom wyczuwania otoczenia i identyfikowania rzeczy, podobnie jak postrzega je ludzki wzrok, jest tym, czym jest widzenie komputerowe. Widzenie komputerowe polega na naśladowaniu sposobu działania i funkcjonowania ludzkiego mózgu. Sztuczne sieci neuronowe (ANN) są systemami komputerowymi zaprojektowanymi tak, aby naśladować funkcje ludzkiego mózgu. Celem jest nadanie komputerom zdolności do pozyskiwania, analizowania i przetwarzania informacji wizualnych tak, jak robi to ludzki wzrok.

Jaka jest główna różnica między wizją komputerową a grafiką komputerową?

Zarówno wizja komputerowa, jak i grafika komputerowa zajmują się informacjami wizualnymi w różnych reprezentacjach. Jednak grafika komputerowa wykorzystuje modele 3D do tworzenia danych obrazu, natomiast wizja komputerowa wykorzystuje dane obrazu do tworzenia modeli 3D.