Obecnie, bardziej niż kiedykolwiek, technologia odgrywa kluczową rolę w całym procesie gromadzenia i wykorzystywania danych. Technologia zmieniła sposób, w jaki dane są produkowane, przetwarzane i konsumowane. Ponieważ rynek analityki big data szybko się rozwija, wiele przedsiębiorstw i firm zaczyna inwestować w technologie Big Data, aby przechowywać i analizować te ogromne ilości danych. Obecnie na rynku istnieje wiele technologii Big Data, które wywierają spory wpływ na nowe stosy technologii do obsługi Big Data. Jedną z takich technologii, która znalazła się w centrum rozmów o Big Data jest Apache Hadoop. Hadoop to jedna z największych nazw w branży Big Data. Teradata to system zarządzania relacyjną bazą danych i wiodące rozwiązanie do hurtowni danych, które dostarcza rozwiązania do zarządzania danymi dla analityki. Służy do przechowywania i przetwarzania dużej ilości ustrukturyzowanych danych w centralnym repozytorium. Poniżej znajduje się porównanie head to head pomiędzy tymi dwoma technologiami.

Co to jest Hadoop?

Hadoop jest sercem Big Data. Jest to oprogramowanie typu open-source opracowane przez Apache Software Foundation i używane do przechowywania i przetwarzania różnych typów danych, które umożliwiają przedsiębiorstwom opartym na danych szybkie uzyskanie pełnej wartości ze wszystkich swoich danych. Hadoop jest odpowiedzią na wdrożenie strategii Big Data. Pierwotnymi twórcami Hadoop są Doug Cutting i Mike Cafarella. Pracowali oni nad projektem stworzenia dużego indeksu internetowego o nazwie „Nutch”. Zobaczyli dokumenty MapReduce i GFS od Google i stwierdzili, że jest to przydatne dla projektu. W końcu więc zintegrowali koncepcje z tych papierów z projektem, co ostatecznie stworzyło genezę projektu Hadoop. Doug nadał nazwę „Hadoop” swojemu zabawkowemu słoniowi, którego później użył dla swojego projektu open source. Hadoop przechowuje terabajty, a nawet petabajty danych w niedrogi sposób, bez utraty danych lub przerwania analiz danych.

Co to jest Teradata?

Teradata to system zarządzania relacyjną bazą danych, taki jak Oracle, opracowany przez wiodącą firmę programistyczną o tej samej nazwie. Teradata jest wiodącym na świecie dostawcą rozwiązań analityki biznesowej, danych i rozwiązań analitycznych oraz produktów i usług chmury hybrydowej. Zapewnia system zarządzania relacyjną bazą danych w jednym RDMS, który działa jako centralne repozytorium. Jego RDBMS jest uważany za wiodące rozwiązanie do hurtowni danych, które uruchamia największe na świecie komercyjne bazy danych. Teradata dostarcza możliwości wspomagania decyzji dla organizacji i przedsiębiorstw, które muszą przechowywać i analizować gigabajty, a nawet terabajty danych. Firma została założona w 1979 roku i rozpoczęła działalność w garażu w Brentwood w Kalifornii. Nazwa Teradata symbolizowała zdolność do zarządzania trylionami bajtów danych. Firma została tak naprawdę założona przez grupę ludzi.

Różnica między Hadoop a Teradata

Technologia

– Hadoop to technologia Big Data opracowana przez Apache Software Foundation do przechowywania i przetwarzania aplikacji Big Data na skalowalnych klastrach sprzętu commodity. Jest to platforma open-source, która odpowiada na wyzwania związane z Big Data obejmujące ogromne ilości danych, które są zbyt różnorodne i szybko zmieniające się, aby konwencjonalne technologie i infrastruktura mogły je skutecznie zaadresować. Z kolei Teradata to w pełni skalowalna hurtownia relacyjnych baz danych zaimplementowana w pojedynczym RDBMS, który pełni rolę centralnego repozytorium. Jest to wiodące rozwiązanie do hurtowni danych, które uruchamia największe na świecie komercyjne bazy danych.

Architektura

– Hadoop oparty jest na architekturze „Master-Slave Architecture”, gdzie klaster składa się z jednego węzła Master, a wszystkie pozostałe węzły są węzłami Slave. Architektura Hadoop opiera się na trzech podkomponentach: HDFS (Hadoop Distributed File System), MapReduce oraz YARN (Yet Another Resource Negotiator). HDFS to część storage’owa architektury Hadoop; MapReduce to agent, który rozdziela pracę i zbiera wyniki; a YARN przydziela dostępne zasoby w systemie.

Teradata to architektura shared nic oparta na systemie masowo równoległego przetwarzania (MPP). System DBMS Teradata jest liniowo i przewidywalnie skalowalny we wszystkich wymiarach obciążenia systemu bazodanowego. Działa jako pojedynczy magazyn danych, który może przyjąć dużą liczbę współbieżnych żądań z wielu aplikacji klienckich. Główne komponenty Teradaty to Parsing Engine, BYNET i AMPs (Access Module Processors).

Typ danych

– Hadoop jest używany do przechowywania i przetwarzania różnych typów danych, które umożliwiają przedsiębiorstwom kierującym się danymi szybkie uzyskanie pełnej wartości ze wszystkich swoich danych. Może przetwarzać każdy rodzaj danych przy użyciu wielu narzędzi open-source – niezależnie od typu danych, czy są to dane ustrukturyzowane, półstrukturalne czy nieustrukturyzowane. Doskonałe możliwości Hadoop w zakresie przetwarzania danych nieustrukturyzowanych są niezrównane. Z kolei Teradata to relacyjne rozwiązanie do hurtowni danych, najlepiej wykorzystywane do przechowywania i przetwarzania dużej ilości ustrukturyzowanych danych w formacie tabelarycznym. Nie jest dobre do przetwarzania danych półstrukturalnych lub nieustrukturyzowanych.



Podsumowanie projektu Hadoop vs. Teradata

Hadoop przechowuje terabajty, a nawet petabajty danych tanio, bez utraty danych. . Może przetwarzać każdy rodzaj danych przy użyciu wielu narzędzi open-source. Z kolei Teradata to w pełni skalowalne rozwiązanie do zarządzania relacyjną bazą danych, służące do przechowywania i przetwarzania dużej ilości ustrukturyzowanych danych w centralnym repozytorium. Hadoop opiera się na architekturze „Master-Slave Architecture”, gdzie klaster składa się z jednego węzła Master, a wszystkie pozostałe węzły są węzłami Slave, natomiast Teradata to architektura nic współdzielonego oparta na systemie masowo równoległego przetwarzania (MPP).