tytuł:
|
Discovery of characteristics of User Defined Functions based on resource usage during execution |
wariant tytułu: |
Odkrywanie charakterystyk funkcji zdefiniowanych przez użytkownika (UDF) na podstawie zużycia zasobów podczas wykonania
|
autor: |
Ganusina Anastasiia |
recenzent: |
Kulig Anna, Zieliński Bartosz
|
promotor: |
Zieliński Bartosz
|
data obrony
: |
2021-07-08 |
język: |
angielski |
abstrakt w j. polskim: |
Integracja danych to proces połączenia danych z różnych źródeł w celu zapewnienia do nich jednolitego wglądu. Jednym z problemów w tym obszarze jest optymalizacja kwerend w środowisku integracji danych, gdy są one dostarczane jako funkcje zdefiniowane przez użytkownika (UDF). Celem tej pracy jest zbadanie możliwości semantycznego odkrycia UDF-ów przez modele uczenia maszynowego. Sprowadzamy problem odkrycia do problemu klasyfikacji wieloklasowej uczenia nadzorowanego i wykorzystujemy AutoAI w celu ćwiczenia, optymalizacji i testowania naszych modeli. Pomysł polega na klasyfikacji statystyk zużycia jako pochodzących z wykonywania właściwego UDF-a. Proponujemy i opisujemy środowisko pozwalające na automatyzację procesu zbierania danych jak i ćwiczenia modeli. Ponadto, przeprowadzamy eksperymenty, aby dowiedzieć się, jak skutecznie UDF-y mogą być przewidywane gdy proces optymalizacji modelu jest całkowicie zautomatyzowany, oraz omawiamy słabości naszego środowiska. Nasze wyniki wskazują, że przewidywanie UDF-ów może być zrobione z akceptowalną precyzją, choć potrzeba więcej badań. Wreszcie, proponujemy kilka różnych podejść do problemu odkrywania UDF-ów do zbadania w przyszłych pracach. |
abstrakt w j. angielskim: |
Data integration is a process of consolidation of data from several sources to provide a unified view of the data. One problem in this area is the optimization of query execution in a data integration environment when queries are presented as User Defined Functions (UDFs). This work aims to study the susceptibility of UDFs to be semantically discovered by machine learning models. We reframe the problem of discovery as a multi-class classification supervised learning problem, and use IBM’s AutoAI to train, tune, and test our models. The idea is to classify performance statistics as having been harvested from the correct UDF. We propose and describe an environment that automates the process of data harvesting and model training. Furthermore, we conduct experiments to find out how well UDFs can be predicted when the model tuning process is fully automated and discuss the shortcomings of our environment. Our results indicate that UDF discovery can be done reasonably well with AutoAI, although further work is required. Finally, we propose several approaches to the UDF discovery problem that can be researched in future work. |
słowa kluczowe w j. polskim: |
optymalizacja w hurtowniach danych, funkcje zdefiniowane przez użytkownika, User Defined Functions, zużycie zasobów systemowych, uczenie nadzorowane, AutoAI, zautomatyzowane uczenie maszynowe, przewidywanie zapytań, przewidywanie kwerend |
słowa kluczowe w j. angielskim: |
data warehouse optimization, User Defined Functions, system resource utilization, supervised learning, AutoAI, automated machine learning, query prediction |
wydział: instytut / zakład / katedra: |
Wydział Matematyki i Informatyki |
typ: |
praca licencjacka |