Discovery of characteristics of User Defined Functions based on resource usage during execution

licenciate
dc.abstract.enData integration is a process of consolidation of data from several sources to provide a unified view of the data. One problem in this area is the optimization of query execution in a data integration environment when queries are presented as User Defined Functions (UDFs). This work aims to study the susceptibility of UDFs to be semantically discovered by machine learning models. We reframe the problem of discovery as a multi-class classification supervised learning problem, and use IBM’s AutoAI to train, tune, and test our models. The idea is to classify performance statistics as having been harvested from the correct UDF. We propose and describe an environment that automates the process of data harvesting and model training. Furthermore, we conduct experiments to find out how well UDFs can be predicted when the model tuning process is fully automated and discuss the shortcomings of our environment. Our results indicate that UDF discovery can be done reasonably well with AutoAI, although further work is required. Finally, we propose several approaches to the UDF discovery problem that can be researched in future work.pl
dc.abstract.plIntegracja danych to proces połączenia danych z różnych źródeł w celu zapewnienia do nich jednolitego wglądu. Jednym z problemów w tym obszarze jest optymalizacja kwerend w środowisku integracji danych, gdy są one dostarczane jako funkcje zdefiniowane przez użytkownika (UDF). Celem tej pracy jest zbadanie możliwości semantycznego odkrycia UDF-ów przez modele uczenia maszynowego. Sprowadzamy problem odkrycia do problemu klasyfikacji wieloklasowej uczenia nadzorowanego i wykorzystujemy AutoAI w celu ćwiczenia, optymalizacji i testowania naszych modeli. Pomysł polega na klasyfikacji statystyk zużycia jako pochodzących z wykonywania właściwego UDF-a. Proponujemy i opisujemy środowisko pozwalające na automatyzację procesu zbierania danych jak i ćwiczenia modeli. Ponadto, przeprowadzamy eksperymenty, aby dowiedzieć się, jak skutecznie UDF-y mogą być przewidywane gdy proces optymalizacji modelu jest całkowicie zautomatyzowany, oraz omawiamy słabości naszego środowiska. Nasze wyniki wskazują, że przewidywanie UDF-ów może być zrobione z akceptowalną precyzją, choć potrzeba więcej badań. Wreszcie, proponujemy kilka różnych podejść do problemu odkrywania UDF-ów do zbadania w przyszłych pracach.pl
dc.affiliationWydział Matematyki i Informatykipl
dc.areaobszar nauk ścisłychpl
dc.contributor.advisorZieliński, Bartosz - 106948 pl
dc.contributor.authorGanusina, Anastasiiapl
dc.contributor.departmentbycodeUJK/WMI2pl
dc.contributor.reviewerKulig, Annapl
dc.contributor.reviewerZieliński, Bartosz - 106948 pl
dc.date.accessioned2021-10-14T21:36:31Z
dc.date.available2021-10-14T21:36:31Z
dc.date.submitted2021-07-08pl
dc.fieldofstudyinformatykapl
dc.identifier.apddiploma-149836-263808pl
dc.identifier.projectAPD / Opl
dc.identifier.urihttps://ruj.uj.edu.pl/xmlui/handle/item/280451
dc.languageengpl
dc.subject.endata warehouse optimization, User Defined Functions, system resource utilization, supervised learning, AutoAI, automated machine learning, query predictionpl
dc.subject.ploptymalizacja w hurtowniach danych, funkcje zdefiniowane przez użytkownika, User Defined Functions, zużycie zasobów systemowych, uczenie nadzorowane, AutoAI, zautomatyzowane uczenie maszynowe, przewidywanie zapytań, przewidywanie kwerendpl
dc.titleDiscovery of characteristics of User Defined Functions based on resource usage during executionpl
dc.title.alternativeOdkrywanie charakterystyk funkcji zdefiniowanych przez użytkownika (UDF) na podstawie zużycia zasobów podczas wykonaniapl
dc.typelicenciatepl
dspace.entity.typePublication
Affiliations

* The migration of download and view statistics prior to the date of April 8, 2024 is in progress.

Views
0
Views per month

No access

No Thumbnail Available