W zależności od wymagań funkcjonalnych danej organizacji, będzie ona potrzebowała zarówno jeziora danych, jak i hurtowni danych. Każdy z nich służy innym celom i przypadkom użycia. Poza tym, oba są szeroko stosowane do przechowywania dużych danych, ale nie można ich używać zamiennie. Oba są często mylone ze sobą, ale są bardzo różne niż podobne. Przyglądamy się kilku kluczowym różnicom między nimi.

Hurtownia danych

Hurtownia danych jest dokładnie tym, na co wygląda – magazynem dla Twoich wysokowartościowych danych lub aktywów danych, które pochodzą z innych aplikacji korporacyjnych. Jest to system zarządzania danymi używany do przechowywania dużego zbioru danych biznesowych, które organizacje wykorzystują do podejmowania decyzji biznesowych. To jak baza informacji, która agreguje dane z wielu źródeł w jeden, centralny, wysoce ustrukturyzowany magazyn danych, aby wspierać analitykę i wspomaganie decyzji. Jest to centralizacja korporacyjnych aktywów danych zawartych w dobrze zarządzanym środowisku.

Hurtownia danych pozwala organizacji na prowadzenie potężnych analiz na ogromnych ilościach danych historycznych w sposób, w jaki zwykła baza danych po prostu nie może. Jest to mieszanka technologii i komponentów, która pozwala na strategiczne wykorzystanie danych. Idea polega na gromadzeniu danych z różnych źródeł, aby zapewnić znaczące spostrzeżenia biznesowe. Jest to rodzaj elektronicznego przechowywania dużej ilości informacji przez firmę, zaprojektowanego dla zapytań i analiz, a nie przetwarzania transakcji.





Jezioro danych

Jezioro danych to centralne repozytorium informacji lub danych przechowywanych w ich naturalnym, surowym formacie. Pozwala na przechowywanie wszystkich ustrukturyzowanych i nieustrukturyzowanych danych w dowolnej skali. Jest to zazwyczaj pojedynczy magazyn danych, który zbiera dane z wielu źródeł w granularnym formacie. Może przechowywać dane ustrukturyzowane, półstrukturalne lub nieustrukturyzowane. Jeziora danych istnieją, ponieważ organizacje są zalane danymi pochodzącymi z różnych źródeł. To właśnie połączenie tych różnych rodzajów źródeł danych pozwala nam na uzyskanie potężnego wglądu w to, jak działa świat wokół nas i prowadzi do rozwoju bardziej inteligentnych aplikacji.

Jeziora danych gromadzą wszystkie te różne rodzaje źródeł danych w postaci niezmienionej, bez żadnej struktury (lub schematu). Jeziora danych mogą przechowywać setki terabajtów lub petabajtów danych w ich natywnym formacie, dopóki nie są one potrzebne do zastosowań analitycznych. W przeciwieństwie do tradycyjnych hurtowni danych, gdzie dane są przechowywane w plikach i folderach, jeziora danych wykorzystują płaską architekturę do przechowywania danych w pamięci obiektowej. Koncepcja Data Lake w przedsiębiorstwie była napędzana przez pewne problemy, z którymi borykano się w związku ze sposobem obsługi, przetwarzania i przechowywania danych.



Różnica między hurtownią danych a jeziorem danych

  1. Typy danych – Hurtownia danych to baza informacji, która agreguje dane z wielu źródeł w jeden, centralny, wysoce ustrukturyzowany magazyn danych w celu wsparcia analityki i wsparcia decyzji. Hurtownie danych pobierają ustrukturyzowane dane z wcześniej zdefiniowanym schematem, aby wspierać inicjatywy business intelligence. Z kolei jeziora danych to pojedynczy magazyn danych, który gromadzi dane z wielu źródeł w surowym, ziarnistym formacie.
  2. Schemat – Tradycyjne hurtownie danych stosują schemat na zapisie, który jest definiowany jako tworzenie schematu dla danych przed zapisem do bazy danych. Oznacza to, że definiuje się kolumny, format danych, relacje kolumn itp. przed załadowaniem danych. Przeciwnie, jeziora danych wykorzystują model schema-on-read, gdzie dane są agregowane w czasie zapytania. Struktura jest stosowana do danych tylko wtedy, gdy dane są odczytywane.
  3. Przechowywanie – Hurtownia danych pozwala organizacji na prowadzenie potężnej analityki na ogromnych ilościach danych historycznych w sposób, w jaki zwykła baza danych po prostu nie może. To sprawia, że przechowywanie danych w hurtowniach danych jest praktyką kosztowną i czasochłonną. Przechowywanie dużych ilości danych w hurtowniach danych jest stosunkowo drogie. Z drugiej strony, jeziora danych są zaprojektowane do przechowywania danych przy niskich kosztach. Efektywnie wykorzystują możliwości przechowywania i przetwarzania przy bardzo niskich kosztach.
  4. Zarządzanie – Hurtownie danych to elektroniczne przechowywanie dużej ilości informacji przez firmę, zaprojektowane z myślą o zapytaniach i analizach, a nie o przetwarzaniu transakcji, w sposób bezpieczny, łatwy do odzyskania i łatwy do zarządzania. Dzięki temu łatwo jest kontrolować bezpieczeństwo danych. Z drugiej strony, aby właściwie zarządzać danymi w jeziorze danych, należy włączyć podejście oparte na metadanych, aby umożliwić użytkownikom wyszukiwanie i lokalizowanie zbiorów danych w jeziorze.

Podsumowanie

Zarówno hurtownie danych, jak i jeziora danych stanowią dwa wiodące rozwiązania w zakresie zarządzania danymi w przedsiębiorstwie, ale bardzo się od siebie różnią niż są podobne. Jeziora danych nie zawierają z natury tych samych funkcji analitycznych, które są powszechnie kojarzone z hurtowniami danych. W hurtowniach danych przechowywane są wszelkiego rodzaju ustrukturyzowane, półstrukturalne i niestrukturalne zbiory danych, podczas gdy w hurtowniach danych przechowywane są jedynie oczyszczone zbiory danych. Hurtownie danych są stosunkowo drogie w zarządzaniu i utrzymaniu, natomiast jeziora danych efektywnie wykorzystują możliwości przechowywania i przetwarzania danych przy niskich kosztach.



Czy jeziora danych zastąpią hurtownię danych?

Obie są technologiami uzupełniającymi i data lakes nie mogą być bezpośrednim substytutem hurtowni danych. Służą one różnym celom i przypadkom użycia.

Co to jest hurtownia danych przykład?

Niektóre z najbardziej znanych nazw w przestrzeni hurtowni danych to Oracle, MarkLogic, Amazon RedShift i tak dalej.