Porównanie metod regularyzacji w algorytmach uczenia ze wzmocnieniem

Soja, Krzysztof

Simple view

Full metadata view

Authors

Statistics

Porównanie metod regularyzacji w algorytmach uczenia ze wzmocnieniem

master

Alternative title

Comparison of regularization methods in the reinforcement learning algorithm

Author

Soja Krzysztof

Reviewer

Misztal Krzysztof

Mazur Marcin

Advisor

Misztal Krzysztof

Date of defence

2021-12-07

Keywords in Polish

uczenie maszynowe, uczenie ze wzmocnieniem, policy-based, A2C, PPO, DDPG, TD3, SAC, dropout, weight decay, manifold mixup, gradient penalty regularyzacja

Keywords in English

machine learning, reinforcement learning, policy-based, A2C, PPO, DDPG, TD3, SAC, dropout, weight decay, manifold mixup, gradient penalty, regularization

Language

Polish

Abstract in Polish

Uczenie ze wzmocnieniem (ang. reinforcemnt learning) jest jednym z paradygmatów uczenia maszynowego obok uczenia nadzorowanego (ang. supervising learnig) oraz uczenia nienadzorowanego (unsupervising learning). Ta kategoria badań zajmuje się optymalizacją bardzo złożonych problemów, przy których inne metody optymalizacyjne zawodzą. W podejściu uczenia ze wzmocnieniem zakładamy istnienie pewnego abstrakcyjnego środowiska, które umożliwia podejmowanie w nim pewnych akcji oraz agenta eksplorującego owe środowisko. W następnie owych akcji agent eksplorujący środowisko otrzymuje nagrodę lub karę - sygnał zwrotny. Celem każdego algorytmu uczenia ze wzmocnieniem jest maksymalizacja sumy sygnałów zwrotnych podczas eksploracji środowiska.W ostatnich kilku latach uczenie ze wzmocnieniem odniosło szereg głośnych, medialnych sukcesów. W 2016 roku algorytmowi AlhpaGo udało się pokonać mistrza gry w GO, w 2018 program OpenAI Five pokonał zespół złożony z czempionów OC w grze Dota 2, w 2019 algorytm AlhpaStar osiągnął tytuł arcymistrza w grze StarCraft II. Algorytmy uczenia ze wzmocnieniem znajdują zastosowanie w sterowaniu samochodami autonomicznymi, znajdowaniu struktur białek oraz w sterowaniu myśliwcami bojowymi. Algorytmy uczenia ze wzmocnieniem bardzo często korzystają z sieci neuronowych jako funkcji przybliżającej wartość stanu środowiska lub aproksymatora oceny działań agenta. Z tego powodu podczas treningu agenta oprócz problemów charakterystycznych tylko i wyłącznie dla uczenia ze wzmocnieniem spotykamy trudności związane z treningiem samej sieci neuronowej. Jednym z takich dość powszechnych problemów jest zagadnienie generalizacji. Nazywamy tak zdolność modelu do dokonywania dobrych predykcji na nowych, wcześniej niewidzianych danych wejściowych. Żeby poprawić zdolność generalizacji modelu powstał szereg metod zwanych regularyzatorami. Jest to dość różnorodny zbiór, zawierający różne techniki treningu modelu, od zmian funkcji koszu przez manipulacje danymi wejściowymi. Każda z tych metod posiada jednak jedną charakterystyczną cechę - zmniejsza błąd na zbiorze testowym, przy możliwym wzroście błędu na zbiorze treningowym.Celem tej pracy jest zbadanie działania wybranych regularyzatorów dla wybranych algorytmów uczenia ze wzmocnieniem. Wszystkie algorytmy były trenowane na popularnym zestawie środowisk continuous control od OpenAI - MuJoCo.

Abstract in English

Reinforcement learning is one paradigm of machine learning besides supervising learning and unsupervised learning. This category of research explores the optimization of very complex problems that can't be solved by other methods. In reinforcement learning, we assume of abstract environment. From the environment, it is possible to sample some actions. The agent can explore the environment. During the exploring environment, the agent gains reward or penalty. The main objective of every reinforcement learning algorithm is to maximize the sum of rewards gained by the agent.Reinforcement learning has achieved a lot of media success. In 2016, AlphaGo won in GO game with the world master. In 2018, algorithm OpenAI Five defeated the champion team in Dota 2. Nest year, AlphaStar achieved the title of the grandmaster in StarCraft 2. Reinforcement learning algorithms are applied in driving a semi-drive car, folds the structure of proteins, and control combat fighters.Neural networks are used as approximators of the value function of the environment state or to validate agent behavior. This causes apart from problems with agent training, we must solve problems typical for neural network training. One of the most common problems calls the generalization problem. Generalization is the ability to make a good prediction on a new, unseen before date. To perform the generalization of models, we use regularization methods. It is a set of trainig strategies used in machine learning to reduce test error at the expense of increased training error.The goal of this work is to test selected methods of regularization for some reinforcement learning algorithms. All chosen algorithm has been trained on popular continuos control environment from OpenAI - MuJoco.

dc.abstract.en	Reinforcement learning is one paradigm of machine learning besides supervising learning and unsupervised learning. This category of research explores the optimization of very complex problems that can't be solved by other methods. In reinforcement learning, we assume of abstract environment. From the environment, it is possible to sample some actions. The agent can explore the environment. During the exploring environment, the agent gains reward or penalty. The main objective of every reinforcement learning algorithm is to maximize the sum of rewards gained by the agent.Reinforcement learning has achieved a lot of media success. In 2016, AlphaGo won in GO game with the world master. In 2018, algorithm OpenAI Five defeated the champion team in Dota 2. Nest year, AlphaStar achieved the title of the grandmaster in StarCraft 2. Reinforcement learning algorithms are applied in driving a semi-drive car, folds the structure of proteins, and control combat fighters.Neural networks are used as approximators of the value function of the environment state or to validate agent behavior. This causes apart from problems with agent training, we must solve problems typical for neural network training. One of the most common problems calls the generalization problem. Generalization is the ability to make a good prediction on a new, unseen before date. To perform the generalization of models, we use regularization methods. It is a set of trainig strategies used in machine learning to reduce test error at the expense of increased training error.The goal of this work is to test selected methods of regularization for some reinforcement learning algorithms. All chosen algorithm has been trained on popular continuos control environment from OpenAI - MuJoco.	pl
dc.abstract.pl	Uczenie ze wzmocnieniem (ang. reinforcemnt learning) jest jednym z paradygmatów uczenia maszynowego obok uczenia nadzorowanego (ang. supervising learnig) oraz uczenia nienadzorowanego (unsupervising learning). Ta kategoria badań zajmuje się optymalizacją bardzo złożonych problemów, przy których inne metody optymalizacyjne zawodzą. W podejściu uczenia ze wzmocnieniem zakładamy istnienie pewnego abstrakcyjnego środowiska, które umożliwia podejmowanie w nim pewnych akcji oraz agenta eksplorującego owe środowisko. W następnie owych akcji agent eksplorujący środowisko otrzymuje nagrodę lub karę - sygnał zwrotny. Celem każdego algorytmu uczenia ze wzmocnieniem jest maksymalizacja sumy sygnałów zwrotnych podczas eksploracji środowiska.W ostatnich kilku latach uczenie ze wzmocnieniem odniosło szereg głośnych, medialnych sukcesów. W 2016 roku algorytmowi AlhpaGo udało się pokonać mistrza gry w GO, w 2018 program OpenAI Five pokonał zespół złożony z czempionów OC w grze Dota 2, w 2019 algorytm AlhpaStar osiągnął tytuł arcymistrza w grze StarCraft II. Algorytmy uczenia ze wzmocnieniem znajdują zastosowanie w sterowaniu samochodami autonomicznymi, znajdowaniu struktur białek oraz w sterowaniu myśliwcami bojowymi. Algorytmy uczenia ze wzmocnieniem bardzo często korzystają z sieci neuronowych jako funkcji przybliżającej wartość stanu środowiska lub aproksymatora oceny działań agenta. Z tego powodu podczas treningu agenta oprócz problemów charakterystycznych tylko i wyłącznie dla uczenia ze wzmocnieniem spotykamy trudności związane z treningiem samej sieci neuronowej. Jednym z takich dość powszechnych problemów jest zagadnienie generalizacji. Nazywamy tak zdolność modelu do dokonywania dobrych predykcji na nowych, wcześniej niewidzianych danych wejściowych. Żeby poprawić zdolność generalizacji modelu powstał szereg metod zwanych regularyzatorami. Jest to dość różnorodny zbiór, zawierający różne techniki treningu modelu, od zmian funkcji koszu przez manipulacje danymi wejściowymi. Każda z tych metod posiada jednak jedną charakterystyczną cechę - zmniejsza błąd na zbiorze testowym, przy możliwym wzroście błędu na zbiorze treningowym.Celem tej pracy jest zbadanie działania wybranych regularyzatorów dla wybranych algorytmów uczenia ze wzmocnieniem. Wszystkie algorytmy były trenowane na popularnym zestawie środowisk continuous control od OpenAI - MuJoCo.	pl
dc.affiliation	Wydział Matematyki i Informatyki	pl
dc.area	obszar nauk ścisłych	pl
dc.contributor.advisor	Misztal, Krzysztof	pl
dc.contributor.author	Soja, Krzysztof	pl
dc.contributor.departmentbycode	UJK/WMI2	pl
dc.contributor.reviewer	Misztal, Krzysztof	pl
dc.contributor.reviewer	Mazur, Marcin - 130444	pl
dc.date.accessioned	2021-12-07T22:34:28Z
dc.date.available	2021-12-07T22:34:28Z
dc.date.submitted	2021-12-07	pl
dc.fieldofstudy	informatyka	pl
dc.identifier.apd	diploma-149777-211417	pl
dc.identifier.uri	https://ruj.uj.edu.pl/xmlui/handle/item/284796
dc.language	pol	pl
dc.subject.en	machine learning, reinforcement learning, policy-based, A2C, PPO, DDPG, TD3, SAC, dropout, weight decay, manifold mixup, gradient penalty, regularization	pl
dc.subject.pl	uczenie maszynowe, uczenie ze wzmocnieniem, policy-based, A2C, PPO, DDPG, TD3, SAC, dropout, weight decay, manifold mixup, gradient penalty regularyzacja	pl
dc.title	Porównanie metod regularyzacji w algorytmach uczenia ze wzmocnieniem	pl
dc.title.alternative	Comparison of regularization methods in the reinforcement learning algorithm	pl
dc.type	master	pl
dspace.entity.type	Publication

dc.abstract.enpl

Reinforcement learning is one paradigm of machine learning besides supervising learning and unsupervised learning. This category of research explores the optimization of very complex problems that can't be solved by other methods. In reinforcement learning, we assume of abstract environment. From the environment, it is possible to sample some actions. The agent can explore the environment. During the exploring environment, the agent gains reward or penalty. The main objective of every reinforcement learning algorithm is to maximize the sum of rewards gained by the agent.Reinforcement learning has achieved a lot of media success. In 2016, AlphaGo won in GO game with the world master. In 2018, algorithm OpenAI Five defeated the champion team in Dota 2. Nest year, AlphaStar achieved the title of the grandmaster in StarCraft 2. Reinforcement learning algorithms are applied in driving a semi-drive car, folds the structure of proteins, and control combat fighters.Neural networks are used as approximators of the value function of the environment state or to validate agent behavior. This causes apart from problems with agent training, we must solve problems typical for neural network training. One of the most common problems calls the generalization problem. Generalization is the ability to make a good prediction on a new, unseen before date. To perform the generalization of models, we use regularization methods. It is a set of trainig strategies used in machine learning to reduce test error at the expense of increased training error.The goal of this work is to test selected methods of regularization for some reinforcement learning algorithms. All chosen algorithm has been trained on popular continuos control environment from OpenAI - MuJoco.

dc.abstract.plpl

Uczenie ze wzmocnieniem (ang. reinforcemnt learning) jest jednym z paradygmatów uczenia maszynowego obok uczenia nadzorowanego (ang. supervising learnig) oraz uczenia nienadzorowanego (unsupervising learning). Ta kategoria badań zajmuje się optymalizacją bardzo złożonych problemów, przy których inne metody optymalizacyjne zawodzą. W podejściu uczenia ze wzmocnieniem zakładamy istnienie pewnego abstrakcyjnego środowiska, które umożliwia podejmowanie w nim pewnych akcji oraz agenta eksplorującego owe środowisko. W następnie owych akcji agent eksplorujący środowisko otrzymuje nagrodę lub karę - sygnał zwrotny. Celem każdego algorytmu uczenia ze wzmocnieniem jest maksymalizacja sumy sygnałów zwrotnych podczas eksploracji środowiska.W ostatnich kilku latach uczenie ze wzmocnieniem odniosło szereg głośnych, medialnych sukcesów. W 2016 roku algorytmowi AlhpaGo udało się pokonać mistrza gry w GO, w 2018 program OpenAI Five pokonał zespół złożony z czempionów OC w grze Dota 2, w 2019 algorytm AlhpaStar osiągnął tytuł arcymistrza w grze StarCraft II. Algorytmy uczenia ze wzmocnieniem znajdują zastosowanie w sterowaniu samochodami autonomicznymi, znajdowaniu struktur białek oraz w sterowaniu myśliwcami bojowymi. Algorytmy uczenia ze wzmocnieniem bardzo często korzystają z sieci neuronowych jako funkcji przybliżającej wartość stanu środowiska lub aproksymatora oceny działań agenta. Z tego powodu podczas treningu agenta oprócz problemów charakterystycznych tylko i wyłącznie dla uczenia ze wzmocnieniem spotykamy trudności związane z treningiem samej sieci neuronowej. Jednym z takich dość powszechnych problemów jest zagadnienie generalizacji. Nazywamy tak zdolność modelu do dokonywania dobrych predykcji na nowych, wcześniej niewidzianych danych wejściowych. Żeby poprawić zdolność generalizacji modelu powstał szereg metod zwanych regularyzatorami. Jest to dość różnorodny zbiór, zawierający różne techniki treningu modelu, od zmian funkcji koszu przez manipulacje danymi wejściowymi. Każda z tych metod posiada jednak jedną charakterystyczną cechę - zmniejsza błąd na zbiorze testowym, przy możliwym wzroście błędu na zbiorze treningowym.Celem tej pracy jest zbadanie działania wybranych regularyzatorów dla wybranych algorytmów uczenia ze wzmocnieniem. Wszystkie algorytmy były trenowane na popularnym zestawie środowisk continuous control od OpenAI - MuJoCo.

dc.affiliationpl

Wydział Matematyki i Informatyki

dc.areapl

obszar nauk ścisłych

dc.contributor.advisorpl

Misztal, Krzysztof

dc.contributor.authorpl

Soja, Krzysztof

dc.contributor.departmentbycodepl

UJK/WMI2

dc.contributor.reviewerpl

Misztal, Krzysztof

dc.contributor.reviewerpl

Mazur, Marcin - 130444

dc.date.accessioned

2021-12-07T22:34:28Z

dc.date.available

2021-12-07T22:34:28Z

dc.date.submittedpl

2021-12-07

dc.fieldofstudypl

informatyka

dc.identifier.apdpl

diploma-149777-211417

dc.identifier.uri

https://ruj.uj.edu.pl/xmlui/handle/item/284796

dc.languagepl

pol

dc.subject.enpl

machine learning, reinforcement learning, policy-based, A2C, PPO, DDPG, TD3, SAC, dropout, weight decay, manifold mixup, gradient penalty, regularization

dc.subject.plpl

uczenie maszynowe, uczenie ze wzmocnieniem, policy-based, A2C, PPO, DDPG, TD3, SAC, dropout, weight decay, manifold mixup, gradient penalty regularyzacja

dc.titlepl

Porównanie metod regularyzacji w algorytmach uczenia ze wzmocnieniem

dc.title.alternativepl

Comparison of regularization methods in the reinforcement learning algorithm

dc.typepl

master

dspace.entity.type

Publication

Affiliations

No affiliation

Soja, Krzysztof

Misztal, Krzysztof

Mazur, Marcin

* The migration of download and view statistics prior to the date of April 8, 2024 is in progress.

Views

150 Views per month

Views per city

Warsaw

42

Krakow

26

Gdansk

6

Skawina

6

Lodz

4

Lublin

4

Poznan

4

Szczecin

4

Wroclaw

4

Katowice

3

No access

Collections

Masters theses