Simple view
Full metadata view
Authors
Statistics
Porównanie metod regularyzacji w algorytmach uczenia ze wzmocnieniem
Comparison of regularization methods in the reinforcement learning algorithm
uczenie maszynowe, uczenie ze wzmocnieniem, policy-based, A2C, PPO, DDPG, TD3, SAC, dropout, weight decay, manifold mixup, gradient penalty regularyzacja
machine learning, reinforcement learning, policy-based, A2C, PPO, DDPG, TD3, SAC, dropout, weight decay, manifold mixup, gradient penalty, regularization
Uczenie ze wzmocnieniem (ang. reinforcemnt learning) jest jednym z paradygmatów uczenia maszynowego obok uczenia nadzorowanego (ang. supervising learnig) oraz uczenia nienadzorowanego (unsupervising learning). Ta kategoria badań zajmuje się optymalizacją bardzo złożonych problemów, przy których inne metody optymalizacyjne zawodzą. W podejściu uczenia ze wzmocnieniem zakładamy istnienie pewnego abstrakcyjnego środowiska, które umożliwia podejmowanie w nim pewnych akcji oraz agenta eksplorującego owe środowisko. W następnie owych akcji agent eksplorujący środowisko otrzymuje nagrodę lub karę - sygnał zwrotny. Celem każdego algorytmu uczenia ze wzmocnieniem jest maksymalizacja sumy sygnałów zwrotnych podczas eksploracji środowiska.W ostatnich kilku latach uczenie ze wzmocnieniem odniosło szereg głośnych, medialnych sukcesów. W 2016 roku algorytmowi AlhpaGo udało się pokonać mistrza gry w GO, w 2018 program OpenAI Five pokonał zespół złożony z czempionów OC w grze Dota 2, w 2019 algorytm AlhpaStar osiągnął tytuł arcymistrza w grze StarCraft II. Algorytmy uczenia ze wzmocnieniem znajdują zastosowanie w sterowaniu samochodami autonomicznymi, znajdowaniu struktur białek oraz w sterowaniu myśliwcami bojowymi. Algorytmy uczenia ze wzmocnieniem bardzo często korzystają z sieci neuronowych jako funkcji przybliżającej wartość stanu środowiska lub aproksymatora oceny działań agenta. Z tego powodu podczas treningu agenta oprócz problemów charakterystycznych tylko i wyłącznie dla uczenia ze wzmocnieniem spotykamy trudności związane z treningiem samej sieci neuronowej. Jednym z takich dość powszechnych problemów jest zagadnienie generalizacji. Nazywamy tak zdolność modelu do dokonywania dobrych predykcji na nowych, wcześniej niewidzianych danych wejściowych. Żeby poprawić zdolność generalizacji modelu powstał szereg metod zwanych regularyzatorami. Jest to dość różnorodny zbiór, zawierający różne techniki treningu modelu, od zmian funkcji koszu przez manipulacje danymi wejściowymi. Każda z tych metod posiada jednak jedną charakterystyczną cechę - zmniejsza błąd na zbiorze testowym, przy możliwym wzroście błędu na zbiorze treningowym.Celem tej pracy jest zbadanie działania wybranych regularyzatorów dla wybranych algorytmów uczenia ze wzmocnieniem. Wszystkie algorytmy były trenowane na popularnym zestawie środowisk continuous control od OpenAI - MuJoCo.
Reinforcement learning is one paradigm of machine learning besides supervising learning and unsupervised learning. This category of research explores the optimization of very complex problems that can't be solved by other methods. In reinforcement learning, we assume of abstract environment. From the environment, it is possible to sample some actions. The agent can explore the environment. During the exploring environment, the agent gains reward or penalty. The main objective of every reinforcement learning algorithm is to maximize the sum of rewards gained by the agent.Reinforcement learning has achieved a lot of media success. In 2016, AlphaGo won in GO game with the world master. In 2018, algorithm OpenAI Five defeated the champion team in Dota 2. Nest year, AlphaStar achieved the title of the grandmaster in StarCraft 2. Reinforcement learning algorithms are applied in driving a semi-drive car, folds the structure of proteins, and control combat fighters.Neural networks are used as approximators of the value function of the environment state or to validate agent behavior. This causes apart from problems with agent training, we must solve problems typical for neural network training. One of the most common problems calls the generalization problem. Generalization is the ability to make a good prediction on a new, unseen before date. To perform the generalization of models, we use regularization methods. It is a set of trainig strategies used in machine learning to reduce test error at the expense of increased training error.The goal of this work is to test selected methods of regularization for some reinforcement learning algorithms. All chosen algorithm has been trained on popular continuos control environment from OpenAI - MuJoco.
dc.abstract.en | Reinforcement learning is one paradigm of machine learning besides supervising learning and unsupervised learning. This category of research explores the optimization of very complex problems that can't be solved by other methods. In reinforcement learning, we assume of abstract environment. From the environment, it is possible to sample some actions. The agent can explore the environment. During the exploring environment, the agent gains reward or penalty. The main objective of every reinforcement learning algorithm is to maximize the sum of rewards gained by the agent.Reinforcement learning has achieved a lot of media success. In 2016, AlphaGo won in GO game with the world master. In 2018, algorithm OpenAI Five defeated the champion team in Dota 2. Nest year, AlphaStar achieved the title of the grandmaster in StarCraft 2. Reinforcement learning algorithms are applied in driving a semi-drive car, folds the structure of proteins, and control combat fighters.Neural networks are used as approximators of the value function of the environment state or to validate agent behavior. This causes apart from problems with agent training, we must solve problems typical for neural network training. One of the most common problems calls the generalization problem. Generalization is the ability to make a good prediction on a new, unseen before date. To perform the generalization of models, we use regularization methods. It is a set of trainig strategies used in machine learning to reduce test error at the expense of increased training error.The goal of this work is to test selected methods of regularization for some reinforcement learning algorithms. All chosen algorithm has been trained on popular continuos control environment from OpenAI - MuJoco. | pl |
dc.abstract.pl | Uczenie ze wzmocnieniem (ang. reinforcemnt learning) jest jednym z paradygmatów uczenia maszynowego obok uczenia nadzorowanego (ang. supervising learnig) oraz uczenia nienadzorowanego (unsupervising learning). Ta kategoria badań zajmuje się optymalizacją bardzo złożonych problemów, przy których inne metody optymalizacyjne zawodzą. W podejściu uczenia ze wzmocnieniem zakładamy istnienie pewnego abstrakcyjnego środowiska, które umożliwia podejmowanie w nim pewnych akcji oraz agenta eksplorującego owe środowisko. W następnie owych akcji agent eksplorujący środowisko otrzymuje nagrodę lub karę - sygnał zwrotny. Celem każdego algorytmu uczenia ze wzmocnieniem jest maksymalizacja sumy sygnałów zwrotnych podczas eksploracji środowiska.W ostatnich kilku latach uczenie ze wzmocnieniem odniosło szereg głośnych, medialnych sukcesów. W 2016 roku algorytmowi AlhpaGo udało się pokonać mistrza gry w GO, w 2018 program OpenAI Five pokonał zespół złożony z czempionów OC w grze Dota 2, w 2019 algorytm AlhpaStar osiągnął tytuł arcymistrza w grze StarCraft II. Algorytmy uczenia ze wzmocnieniem znajdują zastosowanie w sterowaniu samochodami autonomicznymi, znajdowaniu struktur białek oraz w sterowaniu myśliwcami bojowymi. Algorytmy uczenia ze wzmocnieniem bardzo często korzystają z sieci neuronowych jako funkcji przybliżającej wartość stanu środowiska lub aproksymatora oceny działań agenta. Z tego powodu podczas treningu agenta oprócz problemów charakterystycznych tylko i wyłącznie dla uczenia ze wzmocnieniem spotykamy trudności związane z treningiem samej sieci neuronowej. Jednym z takich dość powszechnych problemów jest zagadnienie generalizacji. Nazywamy tak zdolność modelu do dokonywania dobrych predykcji na nowych, wcześniej niewidzianych danych wejściowych. Żeby poprawić zdolność generalizacji modelu powstał szereg metod zwanych regularyzatorami. Jest to dość różnorodny zbiór, zawierający różne techniki treningu modelu, od zmian funkcji koszu przez manipulacje danymi wejściowymi. Każda z tych metod posiada jednak jedną charakterystyczną cechę - zmniejsza błąd na zbiorze testowym, przy możliwym wzroście błędu na zbiorze treningowym.Celem tej pracy jest zbadanie działania wybranych regularyzatorów dla wybranych algorytmów uczenia ze wzmocnieniem. Wszystkie algorytmy były trenowane na popularnym zestawie środowisk continuous control od OpenAI - MuJoCo. | pl |
dc.affiliation | Wydział Matematyki i Informatyki | pl |
dc.area | obszar nauk ścisłych | pl |
dc.contributor.advisor | Misztal, Krzysztof | pl |
dc.contributor.author | Soja, Krzysztof | pl |
dc.contributor.departmentbycode | UJK/WMI2 | pl |
dc.contributor.reviewer | Misztal, Krzysztof | pl |
dc.contributor.reviewer | Mazur, Marcin - 130444 | pl |
dc.date.accessioned | 2021-12-07T22:34:28Z | |
dc.date.available | 2021-12-07T22:34:28Z | |
dc.date.submitted | 2021-12-07 | pl |
dc.fieldofstudy | informatyka | pl |
dc.identifier.apd | diploma-149777-211417 | pl |
dc.identifier.uri | https://ruj.uj.edu.pl/xmlui/handle/item/284796 | |
dc.language | pol | pl |
dc.subject.en | machine learning, reinforcement learning, policy-based, A2C, PPO, DDPG, TD3, SAC, dropout, weight decay, manifold mixup, gradient penalty, regularization | pl |
dc.subject.pl | uczenie maszynowe, uczenie ze wzmocnieniem, policy-based, A2C, PPO, DDPG, TD3, SAC, dropout, weight decay, manifold mixup, gradient penalty regularyzacja | pl |
dc.title | Porównanie metod regularyzacji w algorytmach uczenia ze wzmocnieniem | pl |
dc.title.alternative | Comparison of regularization methods in the reinforcement learning algorithm | pl |
dc.type | master | pl |
dspace.entity.type | Publication |