Metoda Monte Carlo w uczeniu ze wzmocnieniem

master
dc.abstract.enThe aim of the work is to solve the Markov decision problem (MDP). We use dynamic programming in a situation in which we know the dynamics of MDP - we use the strategy iteration algorithm and the value iteration algorithm. On the other hand, when we do not know the MDP dynamics, we use Monte Carlo methods. Part of the work is also devoted to the Q-learning algorithm. We present its operation by solving the taxi-v2 problem in Python.pl
dc.abstract.plCelem pracy jest rozwiązanie problemu decyzyjnego Markowa (MDP). Korzystamy z programowania dynamicznego, w sytuacji w której znamy dynamikę MDP – używamy algorytm iteracji strategii oraz algorytm iteracji wartości. Z kolei, gdy nie znamy dynamiki MDP stosujemy metody Monte Carlo. Część pracy poświęcona jest także algorytmowi Q-learning. Jego działanie prezentujemy poprzez rozwiązanie problemu taxi-v2 w programie Python.pl
dc.affiliationWydział Matematyki i Informatykipl
dc.areaobszar nauk ścisłychpl
dc.contributor.advisorKosiński, Łukasz - 136119 pl
dc.contributor.authorGromna, Martynapl
dc.contributor.departmentbycodeUJK/WMI2pl
dc.contributor.reviewerKosiński, Łukasz - 136119 pl
dc.contributor.reviewerZapałowski, Paweł - 132860 pl
dc.date.accessioned2020-10-21T19:37:09Z
dc.date.available2020-10-21T19:37:09Z
dc.date.submitted2020-09-30pl
dc.fieldofstudymatematyka finansowapl
dc.identifier.apddiploma-145609-249759pl
dc.identifier.projectAPD / Opl
dc.identifier.urihttps://ruj.uj.edu.pl/xmlui/handle/item/250527
dc.languagepolpl
dc.subject.enDynamic programming, Monte Carlo methods, strategy iteration algorithm, value iteration algorithm, Q-learning algorithm, Reinforcement Learning, Markov decision processes.pl
dc.subject.plProgramowanie dynamiczne, metody Monte Carlo, algorytm iteracji strategii, algorytm iteracji wartości, algortym Q-learning, uczenie się ze wzmocnieniem, procesy decyzyjne Markowa.pl
dc.titleMetoda Monte Carlo w uczeniu ze wzmocnieniempl
dc.title.alternativeMonte Carlo method in Reinforcement Learningpl
dc.typemasterpl
dspace.entity.typePublication
dc.abstract.enpl
The aim of the work is to solve the Markov decision problem (MDP). We use dynamic programming in a situation in which we know the dynamics of MDP - we use the strategy iteration algorithm and the value iteration algorithm. On the other hand, when we do not know the MDP dynamics, we use Monte Carlo methods. Part of the work is also devoted to the Q-learning algorithm. We present its operation by solving the taxi-v2 problem in Python.
dc.abstract.plpl
Celem pracy jest rozwiązanie problemu decyzyjnego Markowa (MDP). Korzystamy z programowania dynamicznego, w sytuacji w której znamy dynamikę MDP – używamy algorytm iteracji strategii oraz algorytm iteracji wartości. Z kolei, gdy nie znamy dynamiki MDP stosujemy metody Monte Carlo. Część pracy poświęcona jest także algorytmowi Q-learning. Jego działanie prezentujemy poprzez rozwiązanie problemu taxi-v2 w programie Python.
dc.affiliationpl
Wydział Matematyki i Informatyki
dc.areapl
obszar nauk ścisłych
dc.contributor.advisorpl
Kosiński, Łukasz - 136119
dc.contributor.authorpl
Gromna, Martyna
dc.contributor.departmentbycodepl
UJK/WMI2
dc.contributor.reviewerpl
Kosiński, Łukasz - 136119
dc.contributor.reviewerpl
Zapałowski, Paweł - 132860
dc.date.accessioned
2020-10-21T19:37:09Z
dc.date.available
2020-10-21T19:37:09Z
dc.date.submittedpl
2020-09-30
dc.fieldofstudypl
matematyka finansowa
dc.identifier.apdpl
diploma-145609-249759
dc.identifier.projectpl
APD / O
dc.identifier.uri
https://ruj.uj.edu.pl/xmlui/handle/item/250527
dc.languagepl
pol
dc.subject.enpl
Dynamic programming, Monte Carlo methods, strategy iteration algorithm, value iteration algorithm, Q-learning algorithm, Reinforcement Learning, Markov decision processes.
dc.subject.plpl
Programowanie dynamiczne, metody Monte Carlo, algorytm iteracji strategii, algorytm iteracji wartości, algortym Q-learning, uczenie się ze wzmocnieniem, procesy decyzyjne Markowa.
dc.titlepl
Metoda Monte Carlo w uczeniu ze wzmocnieniem
dc.title.alternativepl
Monte Carlo method in Reinforcement Learning
dc.typepl
master
dspace.entity.type
Publication
Affiliations

* The migration of download and view statistics prior to the date of April 8, 2024 is in progress.

Views
52
Views per month
Views per city
Stopnica
13
Gdansk
11
Krakow
5
Chorzów
4
Dublin
2
Poznan
2
Warsaw
2
Wroclaw
2
Busko-Zdrój
1
Bytom Odrzański
1

No access

No Thumbnail Available