Porównanie metod regularyzacji w algorytmach uczenia ze wzmocnieniem

master
dc.abstract.enReinforcement learning is one paradigm of machine learning besides supervising learning and unsupervised learning. This category of research explores the optimization of very complex problems that can't be solved by other methods. In reinforcement learning, we assume of abstract environment. From the environment, it is possible to sample some actions. The agent can explore the environment. During the exploring environment, the agent gains reward or penalty. The main objective of every reinforcement learning algorithm is to maximize the sum of rewards gained by the agent.Reinforcement learning has achieved a lot of media success. In 2016, AlphaGo won in GO game with the world master. In 2018, algorithm OpenAI Five defeated the champion team in Dota 2. Nest year, AlphaStar achieved the title of the grandmaster in StarCraft 2. Reinforcement learning algorithms are applied in driving a semi-drive car, folds the structure of proteins, and control combat fighters.Neural networks are used as approximators of the value function of the environment state or to validate agent behavior. This causes apart from problems with agent training, we must solve problems typical for neural network training. One of the most common problems calls the generalization problem. Generalization is the ability to make a good prediction on a new, unseen before date. To perform the generalization of models, we use regularization methods. It is a set of trainig strategies used in machine learning to reduce test error at the expense of increased training error.The goal of this work is to test selected methods of regularization for some reinforcement learning algorithms. All chosen algorithm has been trained on popular continuos control environment from OpenAI - MuJoco.pl
dc.abstract.plUczenie ze wzmocnieniem (ang. reinforcemnt learning) jest jednym z paradygmatów uczenia maszynowego obok uczenia nadzorowanego (ang. supervising learnig) oraz uczenia nienadzorowanego (unsupervising learning). Ta kategoria badań zajmuje się optymalizacją bardzo złożonych problemów, przy których inne metody optymalizacyjne zawodzą. W podejściu uczenia ze wzmocnieniem zakładamy istnienie pewnego abstrakcyjnego środowiska, które umożliwia podejmowanie w nim pewnych akcji oraz agenta eksplorującego owe środowisko. W następnie owych akcji agent eksplorujący środowisko otrzymuje nagrodę lub karę - sygnał zwrotny. Celem każdego algorytmu uczenia ze wzmocnieniem jest maksymalizacja sumy sygnałów zwrotnych podczas eksploracji środowiska.W ostatnich kilku latach uczenie ze wzmocnieniem odniosło szereg głośnych, medialnych sukcesów. W 2016 roku algorytmowi AlhpaGo udało się pokonać mistrza gry w GO, w 2018 program OpenAI Five pokonał zespół złożony z czempionów OC w grze Dota 2, w 2019 algorytm AlhpaStar osiągnął tytuł arcymistrza w grze StarCraft II. Algorytmy uczenia ze wzmocnieniem znajdują zastosowanie w sterowaniu samochodami autonomicznymi, znajdowaniu struktur białek oraz w sterowaniu myśliwcami bojowymi. Algorytmy uczenia ze wzmocnieniem bardzo często korzystają z sieci neuronowych jako funkcji przybliżającej wartość stanu środowiska lub aproksymatora oceny działań agenta. Z tego powodu podczas treningu agenta oprócz problemów charakterystycznych tylko i wyłącznie dla uczenia ze wzmocnieniem spotykamy trudności związane z treningiem samej sieci neuronowej. Jednym z takich dość powszechnych problemów jest zagadnienie generalizacji. Nazywamy tak zdolność modelu do dokonywania dobrych predykcji na nowych, wcześniej niewidzianych danych wejściowych. Żeby poprawić zdolność generalizacji modelu powstał szereg metod zwanych regularyzatorami. Jest to dość różnorodny zbiór, zawierający różne techniki treningu modelu, od zmian funkcji koszu przez manipulacje danymi wejściowymi. Każda z tych metod posiada jednak jedną charakterystyczną cechę - zmniejsza błąd na zbiorze testowym, przy możliwym wzroście błędu na zbiorze treningowym.Celem tej pracy jest zbadanie działania wybranych regularyzatorów dla wybranych algorytmów uczenia ze wzmocnieniem. Wszystkie algorytmy były trenowane na popularnym zestawie środowisk continuous control od OpenAI - MuJoCo.pl
dc.affiliationWydział Matematyki i Informatykipl
dc.areaobszar nauk ścisłychpl
dc.contributor.advisorMisztal, Krzysztofpl
dc.contributor.authorSoja, Krzysztofpl
dc.contributor.departmentbycodeUJK/WMI2pl
dc.contributor.reviewerMisztal, Krzysztofpl
dc.contributor.reviewerMazur, Marcin - 130444 pl
dc.date.accessioned2021-12-07T22:34:28Z
dc.date.available2021-12-07T22:34:28Z
dc.date.submitted2021-12-07pl
dc.fieldofstudyinformatykapl
dc.identifier.apddiploma-149777-211417pl
dc.identifier.urihttps://ruj.uj.edu.pl/xmlui/handle/item/284796
dc.languagepolpl
dc.subject.enmachine learning, reinforcement learning, policy-based, A2C, PPO, DDPG, TD3, SAC, dropout, weight decay, manifold mixup, gradient penalty, regularizationpl
dc.subject.pluczenie maszynowe, uczenie ze wzmocnieniem, policy-based, A2C, PPO, DDPG, TD3, SAC, dropout, weight decay, manifold mixup, gradient penalty regularyzacjapl
dc.titlePorównanie metod regularyzacji w algorytmach uczenia ze wzmocnieniempl
dc.title.alternativeComparison of regularization methods in the reinforcement learning algorithmpl
dc.typemasterpl
dspace.entity.typePublication
dc.abstract.enpl
Reinforcement learning is one paradigm of machine learning besides supervising learning and unsupervised learning. This category of research explores the optimization of very complex problems that can't be solved by other methods. In reinforcement learning, we assume of abstract environment. From the environment, it is possible to sample some actions. The agent can explore the environment. During the exploring environment, the agent gains reward or penalty. The main objective of every reinforcement learning algorithm is to maximize the sum of rewards gained by the agent.Reinforcement learning has achieved a lot of media success. In 2016, AlphaGo won in GO game with the world master. In 2018, algorithm OpenAI Five defeated the champion team in Dota 2. Nest year, AlphaStar achieved the title of the grandmaster in StarCraft 2. Reinforcement learning algorithms are applied in driving a semi-drive car, folds the structure of proteins, and control combat fighters.Neural networks are used as approximators of the value function of the environment state or to validate agent behavior. This causes apart from problems with agent training, we must solve problems typical for neural network training. One of the most common problems calls the generalization problem. Generalization is the ability to make a good prediction on a new, unseen before date. To perform the generalization of models, we use regularization methods. It is a set of trainig strategies used in machine learning to reduce test error at the expense of increased training error.The goal of this work is to test selected methods of regularization for some reinforcement learning algorithms. All chosen algorithm has been trained on popular continuos control environment from OpenAI - MuJoco.
dc.abstract.plpl
Uczenie ze wzmocnieniem (ang. reinforcemnt learning) jest jednym z paradygmatów uczenia maszynowego obok uczenia nadzorowanego (ang. supervising learnig) oraz uczenia nienadzorowanego (unsupervising learning). Ta kategoria badań zajmuje się optymalizacją bardzo złożonych problemów, przy których inne metody optymalizacyjne zawodzą. W podejściu uczenia ze wzmocnieniem zakładamy istnienie pewnego abstrakcyjnego środowiska, które umożliwia podejmowanie w nim pewnych akcji oraz agenta eksplorującego owe środowisko. W następnie owych akcji agent eksplorujący środowisko otrzymuje nagrodę lub karę - sygnał zwrotny. Celem każdego algorytmu uczenia ze wzmocnieniem jest maksymalizacja sumy sygnałów zwrotnych podczas eksploracji środowiska.W ostatnich kilku latach uczenie ze wzmocnieniem odniosło szereg głośnych, medialnych sukcesów. W 2016 roku algorytmowi AlhpaGo udało się pokonać mistrza gry w GO, w 2018 program OpenAI Five pokonał zespół złożony z czempionów OC w grze Dota 2, w 2019 algorytm AlhpaStar osiągnął tytuł arcymistrza w grze StarCraft II. Algorytmy uczenia ze wzmocnieniem znajdują zastosowanie w sterowaniu samochodami autonomicznymi, znajdowaniu struktur białek oraz w sterowaniu myśliwcami bojowymi. Algorytmy uczenia ze wzmocnieniem bardzo często korzystają z sieci neuronowych jako funkcji przybliżającej wartość stanu środowiska lub aproksymatora oceny działań agenta. Z tego powodu podczas treningu agenta oprócz problemów charakterystycznych tylko i wyłącznie dla uczenia ze wzmocnieniem spotykamy trudności związane z treningiem samej sieci neuronowej. Jednym z takich dość powszechnych problemów jest zagadnienie generalizacji. Nazywamy tak zdolność modelu do dokonywania dobrych predykcji na nowych, wcześniej niewidzianych danych wejściowych. Żeby poprawić zdolność generalizacji modelu powstał szereg metod zwanych regularyzatorami. Jest to dość różnorodny zbiór, zawierający różne techniki treningu modelu, od zmian funkcji koszu przez manipulacje danymi wejściowymi. Każda z tych metod posiada jednak jedną charakterystyczną cechę - zmniejsza błąd na zbiorze testowym, przy możliwym wzroście błędu na zbiorze treningowym.Celem tej pracy jest zbadanie działania wybranych regularyzatorów dla wybranych algorytmów uczenia ze wzmocnieniem. Wszystkie algorytmy były trenowane na popularnym zestawie środowisk continuous control od OpenAI - MuJoCo.
dc.affiliationpl
Wydział Matematyki i Informatyki
dc.areapl
obszar nauk ścisłych
dc.contributor.advisorpl
Misztal, Krzysztof
dc.contributor.authorpl
Soja, Krzysztof
dc.contributor.departmentbycodepl
UJK/WMI2
dc.contributor.reviewerpl
Misztal, Krzysztof
dc.contributor.reviewerpl
Mazur, Marcin - 130444
dc.date.accessioned
2021-12-07T22:34:28Z
dc.date.available
2021-12-07T22:34:28Z
dc.date.submittedpl
2021-12-07
dc.fieldofstudypl
informatyka
dc.identifier.apdpl
diploma-149777-211417
dc.identifier.uri
https://ruj.uj.edu.pl/xmlui/handle/item/284796
dc.languagepl
pol
dc.subject.enpl
machine learning, reinforcement learning, policy-based, A2C, PPO, DDPG, TD3, SAC, dropout, weight decay, manifold mixup, gradient penalty, regularization
dc.subject.plpl
uczenie maszynowe, uczenie ze wzmocnieniem, policy-based, A2C, PPO, DDPG, TD3, SAC, dropout, weight decay, manifold mixup, gradient penalty regularyzacja
dc.titlepl
Porównanie metod regularyzacji w algorytmach uczenia ze wzmocnieniem
dc.title.alternativepl
Comparison of regularization methods in the reinforcement learning algorithm
dc.typepl
master
dspace.entity.type
Publication
Affiliations

* The migration of download and view statistics prior to the date of April 8, 2024 is in progress.

Views
150
Views per month
Views per city
Warsaw
42
Krakow
26
Gdansk
6
Skawina
6
Lodz
4
Lublin
4
Poznan
4
Szczecin
4
Wroclaw
4
Katowice
3

No access

No Thumbnail Available
Collections