Porównanie technologii data lake i data warehouse

master
dc.abstract.enThe aim of this thesis is to compare data storage technologies, namely Data Warehouse and Data Lake, with particular emphasis on their architecture, data processing workflows, and applications in the Big Data environment. The first part discusses the nature of data in the era of Big Data, highlighting the differences between structured, semi-structured, and unstructured data, as well as the challenges associated with their management.The following chapters focus on Data Warehouse technology, including its definition, history, architecture, and the ETL process, covering extraction, transformation, and loading of data. Typical use cases of data warehouses in business and analytics are also presented. The concept of Data Lake is then addressed, describing various architectural models, including Lambda, Kappa, Multi-Zone architectures, and modern approaches such as Data Lakehouse. The ELT process and its characteristic features in working with raw data are also presented.The final part of the thesis provides a direct comparison of the two technologies, considering criteria such as data types, flexibility, scalability, performance, and typical usage scenarios. The work also includes a tabular summary of the key differences, facilitating the selection of the most suitable approach depending on business and technological needs.pl
dc.abstract.plCelem pracy jest porównanie technologii przechowywania danych Data Warehouse (hurtowni danych) oraz Data Lake (jezior danych) ze szczególnym uwzględnieniem ich architektury, procesów przetwarzania danych oraz zastosowań w środowisku Big Data. W pierwszej części omówiono specyfikę danych w erze Big Data, ze wskazaniem różnic między danymi ustrukturyzowanymi, półstrukturyzowanymi i nieustrukturyzowanymi oraz wyzwań związanych z ich zarządzaniem.Kolejne rozdziały poświęcone są technologii Data Warehouse, jej definicji, historii, architekturze oraz procesowi ETL, obejmującemu ekstrakcję, transformację i ładowanie danych. Przedstawiono również typowe zastosowania hurtowni danych w biznesie i analityce. Następnie omówiono koncepcję Data Lake, opisując różnorodne modele architektoniczne, w tym architektury Lambda, Kappa, Multi-Zone oraz nowoczesne podejścia typu Data Lakehouse. Zaprezentowano również proces ELT i jego charakterystyczne cechy w kontekście pracy z danymi surowymi.W ostatniej części pracy dokonano bezpośredniego porównania obu technologii, uwzględniając kryteria takie jak typy danych, elastyczność, skalowalność, wydajność oraz scenariusze zastosowań. Praca zawiera również tabelaryczne zestawienie najważniejszych różnic, ułatwiające wybór odpowiedniego podejścia w zależności od potrzeb biznesowych i technologicznych.pl
dc.affiliationUniwersytet Jagielloński w Krakowiepl
dc.contributor.advisorPalacz, Wojciech - 102423 pl
dc.contributor.authorStrzelczyk, Bartłomiej - USOS338110 pl
dc.contributor.departmentbycodeUJK/UJKpl
dc.contributor.reviewerPalacz, Wojciech - 102423 pl
dc.contributor.reviewerŚlusarczyk, Grażyna - 132324 pl
dc.date.accessioned2025-10-27T23:31:34Z
dc.date.available2025-10-27T23:31:34Z
dc.date.createdat2025-10-27T23:31:34Zen
dc.date.submitted2025-10-16pl
dc.date.submitted2025-10-16
dc.fieldofstudyinformatyka stosowanapl
dc.identifier.apddiploma-179177-338110pl
dc.identifier.urihttps://ruj.uj.edu.pl/handle/item/564008
dc.languagepolpl
dc.source.integratorfalse
dc.subject.enData Lake, Data Warehouse, Big Data, ELT, ETLpl
dc.subject.plJezioro danych, Hurtownia danych, Big Data, ELT, ETLpl
dc.titlePorównanie technologii data lake i data warehousepl
dc.title.alternativeComparison of data lake and data warehouse technologiespl
dc.typemasterpl
dspace.entity.typePublication
dc.abstract.enpl
The aim of this thesis is to compare data storage technologies, namely Data Warehouse and Data Lake, with particular emphasis on their architecture, data processing workflows, and applications in the Big Data environment. The first part discusses the nature of data in the era of Big Data, highlighting the differences between structured, semi-structured, and unstructured data, as well as the challenges associated with their management.The following chapters focus on Data Warehouse technology, including its definition, history, architecture, and the ETL process, covering extraction, transformation, and loading of data. Typical use cases of data warehouses in business and analytics are also presented. The concept of Data Lake is then addressed, describing various architectural models, including Lambda, Kappa, Multi-Zone architectures, and modern approaches such as Data Lakehouse. The ELT process and its characteristic features in working with raw data are also presented.The final part of the thesis provides a direct comparison of the two technologies, considering criteria such as data types, flexibility, scalability, performance, and typical usage scenarios. The work also includes a tabular summary of the key differences, facilitating the selection of the most suitable approach depending on business and technological needs.
dc.abstract.plpl
Celem pracy jest porównanie technologii przechowywania danych Data Warehouse (hurtowni danych) oraz Data Lake (jezior danych) ze szczególnym uwzględnieniem ich architektury, procesów przetwarzania danych oraz zastosowań w środowisku Big Data. W pierwszej części omówiono specyfikę danych w erze Big Data, ze wskazaniem różnic między danymi ustrukturyzowanymi, półstrukturyzowanymi i nieustrukturyzowanymi oraz wyzwań związanych z ich zarządzaniem.Kolejne rozdziały poświęcone są technologii Data Warehouse, jej definicji, historii, architekturze oraz procesowi ETL, obejmującemu ekstrakcję, transformację i ładowanie danych. Przedstawiono również typowe zastosowania hurtowni danych w biznesie i analityce. Następnie omówiono koncepcję Data Lake, opisując różnorodne modele architektoniczne, w tym architektury Lambda, Kappa, Multi-Zone oraz nowoczesne podejścia typu Data Lakehouse. Zaprezentowano również proces ELT i jego charakterystyczne cechy w kontekście pracy z danymi surowymi.W ostatniej części pracy dokonano bezpośredniego porównania obu technologii, uwzględniając kryteria takie jak typy danych, elastyczność, skalowalność, wydajność oraz scenariusze zastosowań. Praca zawiera również tabelaryczne zestawienie najważniejszych różnic, ułatwiające wybór odpowiedniego podejścia w zależności od potrzeb biznesowych i technologicznych.
dc.affiliationpl
Uniwersytet Jagielloński w Krakowie
dc.contributor.advisorpl
Palacz, Wojciech - 102423
dc.contributor.authorpl
Strzelczyk, Bartłomiej - USOS338110
dc.contributor.departmentbycodepl
UJK/UJK
dc.contributor.reviewerpl
Palacz, Wojciech - 102423
dc.contributor.reviewerpl
Ślusarczyk, Grażyna - 132324
dc.date.accessioned
2025-10-27T23:31:34Z
dc.date.available
2025-10-27T23:31:34Z
dc.date.createdaten
2025-10-27T23:31:34Z
dc.date.submittedpl
2025-10-16
dc.date.submitted
2025-10-16
dc.fieldofstudypl
informatyka stosowana
dc.identifier.apdpl
diploma-179177-338110
dc.identifier.uri
https://ruj.uj.edu.pl/handle/item/564008
dc.languagepl
pol
dc.source.integrator
false
dc.subject.enpl
Data Lake, Data Warehouse, Big Data, ELT, ETL
dc.subject.plpl
Jezioro danych, Hurtownia danych, Big Data, ELT, ETL
dc.titlepl
Porównanie technologii data lake i data warehouse
dc.title.alternativepl
Comparison of data lake and data warehouse technologies
dc.typepl
master
dspace.entity.type
Publication
Affiliations

* The migration of download and view statistics prior to the date of April 8, 2024 is in progress.

Views
18
Views per month
Views per city
Krakow
4
Warsaw
4
Katowice
2
Lodz
2
Wroclaw
2
Poznan
1
Szczecin
1

No access

No Thumbnail Available
Collections