Simple view
Full metadata view
Authors
Statistics
Porównanie technologii data lake i data warehouse
Comparison of data lake and data warehouse technologies
Jezioro danych, Hurtownia danych, Big Data, ELT, ETL
Data Lake, Data Warehouse, Big Data, ELT, ETL
Celem pracy jest porównanie technologii przechowywania danych Data Warehouse (hurtowni danych) oraz Data Lake (jezior danych) ze szczególnym uwzględnieniem ich architektury, procesów przetwarzania danych oraz zastosowań w środowisku Big Data. W pierwszej części omówiono specyfikę danych w erze Big Data, ze wskazaniem różnic między danymi ustrukturyzowanymi, półstrukturyzowanymi i nieustrukturyzowanymi oraz wyzwań związanych z ich zarządzaniem.Kolejne rozdziały poświęcone są technologii Data Warehouse, jej definicji, historii, architekturze oraz procesowi ETL, obejmującemu ekstrakcję, transformację i ładowanie danych. Przedstawiono również typowe zastosowania hurtowni danych w biznesie i analityce. Następnie omówiono koncepcję Data Lake, opisując różnorodne modele architektoniczne, w tym architektury Lambda, Kappa, Multi-Zone oraz nowoczesne podejścia typu Data Lakehouse. Zaprezentowano również proces ELT i jego charakterystyczne cechy w kontekście pracy z danymi surowymi.W ostatniej części pracy dokonano bezpośredniego porównania obu technologii, uwzględniając kryteria takie jak typy danych, elastyczność, skalowalność, wydajność oraz scenariusze zastosowań. Praca zawiera również tabelaryczne zestawienie najważniejszych różnic, ułatwiające wybór odpowiedniego podejścia w zależności od potrzeb biznesowych i technologicznych.
The aim of this thesis is to compare data storage technologies, namely Data Warehouse and Data Lake, with particular emphasis on their architecture, data processing workflows, and applications in the Big Data environment. The first part discusses the nature of data in the era of Big Data, highlighting the differences between structured, semi-structured, and unstructured data, as well as the challenges associated with their management.The following chapters focus on Data Warehouse technology, including its definition, history, architecture, and the ETL process, covering extraction, transformation, and loading of data. Typical use cases of data warehouses in business and analytics are also presented. The concept of Data Lake is then addressed, describing various architectural models, including Lambda, Kappa, Multi-Zone architectures, and modern approaches such as Data Lakehouse. The ELT process and its characteristic features in working with raw data are also presented.The final part of the thesis provides a direct comparison of the two technologies, considering criteria such as data types, flexibility, scalability, performance, and typical usage scenarios. The work also includes a tabular summary of the key differences, facilitating the selection of the most suitable approach depending on business and technological needs.
| dc.abstract.en | The aim of this thesis is to compare data storage technologies, namely Data Warehouse and Data Lake, with particular emphasis on their architecture, data processing workflows, and applications in the Big Data environment. The first part discusses the nature of data in the era of Big Data, highlighting the differences between structured, semi-structured, and unstructured data, as well as the challenges associated with their management.The following chapters focus on Data Warehouse technology, including its definition, history, architecture, and the ETL process, covering extraction, transformation, and loading of data. Typical use cases of data warehouses in business and analytics are also presented. The concept of Data Lake is then addressed, describing various architectural models, including Lambda, Kappa, Multi-Zone architectures, and modern approaches such as Data Lakehouse. The ELT process and its characteristic features in working with raw data are also presented.The final part of the thesis provides a direct comparison of the two technologies, considering criteria such as data types, flexibility, scalability, performance, and typical usage scenarios. The work also includes a tabular summary of the key differences, facilitating the selection of the most suitable approach depending on business and technological needs. | pl |
| dc.abstract.pl | Celem pracy jest porównanie technologii przechowywania danych Data Warehouse (hurtowni danych) oraz Data Lake (jezior danych) ze szczególnym uwzględnieniem ich architektury, procesów przetwarzania danych oraz zastosowań w środowisku Big Data. W pierwszej części omówiono specyfikę danych w erze Big Data, ze wskazaniem różnic między danymi ustrukturyzowanymi, półstrukturyzowanymi i nieustrukturyzowanymi oraz wyzwań związanych z ich zarządzaniem.Kolejne rozdziały poświęcone są technologii Data Warehouse, jej definicji, historii, architekturze oraz procesowi ETL, obejmującemu ekstrakcję, transformację i ładowanie danych. Przedstawiono również typowe zastosowania hurtowni danych w biznesie i analityce. Następnie omówiono koncepcję Data Lake, opisując różnorodne modele architektoniczne, w tym architektury Lambda, Kappa, Multi-Zone oraz nowoczesne podejścia typu Data Lakehouse. Zaprezentowano również proces ELT i jego charakterystyczne cechy w kontekście pracy z danymi surowymi.W ostatniej części pracy dokonano bezpośredniego porównania obu technologii, uwzględniając kryteria takie jak typy danych, elastyczność, skalowalność, wydajność oraz scenariusze zastosowań. Praca zawiera również tabelaryczne zestawienie najważniejszych różnic, ułatwiające wybór odpowiedniego podejścia w zależności od potrzeb biznesowych i technologicznych. | pl |
| dc.affiliation | Uniwersytet Jagielloński w Krakowie | pl |
| dc.contributor.advisor | Palacz, Wojciech - 102423 | pl |
| dc.contributor.author | Strzelczyk, Bartłomiej - USOS338110 | pl |
| dc.contributor.departmentbycode | UJK/UJK | pl |
| dc.contributor.reviewer | Palacz, Wojciech - 102423 | pl |
| dc.contributor.reviewer | Ślusarczyk, Grażyna - 132324 | pl |
| dc.date.accessioned | 2025-10-27T23:31:34Z | |
| dc.date.available | 2025-10-27T23:31:34Z | |
| dc.date.createdat | 2025-10-27T23:31:34Z | en |
| dc.date.submitted | 2025-10-16 | pl |
| dc.date.submitted | 2025-10-16 | |
| dc.fieldofstudy | informatyka stosowana | pl |
| dc.identifier.apd | diploma-179177-338110 | pl |
| dc.identifier.uri | https://ruj.uj.edu.pl/handle/item/564008 | |
| dc.language | pol | pl |
| dc.source.integrator | false | |
| dc.subject.en | Data Lake, Data Warehouse, Big Data, ELT, ETL | pl |
| dc.subject.pl | Jezioro danych, Hurtownia danych, Big Data, ELT, ETL | pl |
| dc.title | Porównanie technologii data lake i data warehouse | pl |
| dc.title.alternative | Comparison of data lake and data warehouse technologies | pl |
| dc.type | master | pl |
| dspace.entity.type | Publication |