Exploration of optimisation based on meta-learning

master
dc.abstract.enArtificial neural networks are one of the essential function approximators ubiquitously employed in pattern recognition and machine learning. One of the key reasons for their success is the ability to be trained using gradients calculated by relatively inexpensive backpropagation method. The main challenge of training machine learning models is to achieve good generalization, that is to correctly predict output values for unseen data. This task gets harder with smaller training data sets and in extreme setups there may be only a handful of training samples. Such setup is often called one-shot learning or few-shot learning.One way to approach few-shot learning problems is to design a better optimizer. The optimizer of neural networks can be a neural network itself and could be trained on several similar machine learning tasks. This kind of optimizer can be called meta-learner and the task of training it is meta-learning or optimizer learning.State-of-the-art meta-learner models use first-order gradients as the main information for predicting new values of parameters. Recent research suggests that second-order derivatives can also be informative when it comes to good generalization. Arguably, an optimizer that generalizes well should take into account not only the value of the cost function but also its shape.The goal of this thesis is to investigate how meta-learners work by comparing them to existing optimizers and inspecting Hessian of the loss function. We also aim to provide a first, to our knowledge, investigation into potential benefits of using second-order information in learned optimizers.pl
dc.abstract.plSztuczne sieci neuronowe są jednym z najważniejszych aproksymatorów funkcji, powszechnie stosowanym w rozpoznawaniu wzorców i uczeniu maszynowym. Jednym z głównych przyczyn ich sukcesu jest możliwość trenowania ich przy użyciu gradientów obliczanych relatywnie mało kosztowną metodą propagacji wstecznej.Głównym wyzwaniem podczas trenowania modelu uczącego się jest osiągnięcie dobrej generalizacji, oznaczającej przewidywanie wartości wyjściowych dla nowych danych. To zadanie robi się trudniejsze dla małych zbiorów danych. W skrajnych przypadkach dane mogą składać się jedynie z kilku przykładów treningowych. Taki rodzaj problemu określany jest mianem few-shot learning.Jednym z możliwych podejść do few-shot learningu jest projektowanie lepszych optymalizatorów. Optymalizator sieci neuronowych może sam w sobie stanowić sieć neuronową, która może być trenowana na zbiorze podobnych zadaniach uczenia maszynowego. Taki rodzaj optymalizatora nosi nazwę meta-optymalizatora, a trenowanie go meta-uczeniem.Współczesne meta-optymalizatory używają gradientów pierwszego stopnia jako głównej informacji służącej do przewidywania nowych wartości parametrów. Najnowsze badania sugerują, że drugie pochodne mogą również stanowić przydatną informację w kontekście dobrej generalizacji. Być może dobrze generalizujący optymalizator powinien również brać pod uwagę kształt funkcji kosztu, a nie tylko jej wartość.Celem tej pracy jest zbadanie jak działają meta-optymalizatory poprzez porównanie ich do obecnie istniejących optymalizatorów i badanie Hessianu funkcji kosztu. Pragniemy również przeprowadzić pierwszą, według naszej wiedzy, próbę ulepszenia trenowanych optymalizatorów poprzez użycie przez nich informacji o drugich pochodnych.pl
dc.affiliationWydział Matematyki i Informatykipl
dc.areaobszar nauk ścisłychpl
dc.contributor.advisorPodolak, Igor - 100165 pl
dc.contributor.authorSacha, Mikołajpl
dc.contributor.departmentbycodeUJK/WMI2pl
dc.contributor.reviewerPodolak, Igor - 100165 pl
dc.contributor.reviewerSpurek, Przemysławpl
dc.date.accessioned2020-07-27T15:41:23Z
dc.date.available2020-07-27T15:41:23Z
dc.date.submitted2018-07-06pl
dc.fieldofstudymodelowanie, sztuczna inteligencja i sterowaniepl
dc.identifier.apddiploma-123089-178013pl
dc.identifier.projectAPD / Opl
dc.identifier.urihttps://ruj.uj.edu.pl/xmlui/handle/item/227485
dc.languageengpl
dc.subject.enmachine learning, neural networks, meta-learning, optimization, learning to learn, meta-optimization, tensorflowpl
dc.subject.pluczenie maszynowe, sieci neuronowe, meta-learning, meta-uczenie, optymalizacja, meta-optymalizacja, tensorflowpl
dc.titleExploration of optimisation based on meta-learningpl
dc.title.alternativeEksploracja optymalizacji opartej o meta-learningpl
dc.typemasterpl
dspace.entity.typePublication
dc.abstract.enpl
Artificial neural networks are one of the essential function approximators ubiquitously employed in pattern recognition and machine learning. One of the key reasons for their success is the ability to be trained using gradients calculated by relatively inexpensive backpropagation method. The main challenge of training machine learning models is to achieve good generalization, that is to correctly predict output values for unseen data. This task gets harder with smaller training data sets and in extreme setups there may be only a handful of training samples. Such setup is often called one-shot learning or few-shot learning.One way to approach few-shot learning problems is to design a better optimizer. The optimizer of neural networks can be a neural network itself and could be trained on several similar machine learning tasks. This kind of optimizer can be called meta-learner and the task of training it is meta-learning or optimizer learning.State-of-the-art meta-learner models use first-order gradients as the main information for predicting new values of parameters. Recent research suggests that second-order derivatives can also be informative when it comes to good generalization. Arguably, an optimizer that generalizes well should take into account not only the value of the cost function but also its shape.The goal of this thesis is to investigate how meta-learners work by comparing them to existing optimizers and inspecting Hessian of the loss function. We also aim to provide a first, to our knowledge, investigation into potential benefits of using second-order information in learned optimizers.
dc.abstract.plpl
Sztuczne sieci neuronowe są jednym z najważniejszych aproksymatorów funkcji, powszechnie stosowanym w rozpoznawaniu wzorców i uczeniu maszynowym. Jednym z głównych przyczyn ich sukcesu jest możliwość trenowania ich przy użyciu gradientów obliczanych relatywnie mało kosztowną metodą propagacji wstecznej.Głównym wyzwaniem podczas trenowania modelu uczącego się jest osiągnięcie dobrej generalizacji, oznaczającej przewidywanie wartości wyjściowych dla nowych danych. To zadanie robi się trudniejsze dla małych zbiorów danych. W skrajnych przypadkach dane mogą składać się jedynie z kilku przykładów treningowych. Taki rodzaj problemu określany jest mianem few-shot learning.Jednym z możliwych podejść do few-shot learningu jest projektowanie lepszych optymalizatorów. Optymalizator sieci neuronowych może sam w sobie stanowić sieć neuronową, która może być trenowana na zbiorze podobnych zadaniach uczenia maszynowego. Taki rodzaj optymalizatora nosi nazwę meta-optymalizatora, a trenowanie go meta-uczeniem.Współczesne meta-optymalizatory używają gradientów pierwszego stopnia jako głównej informacji służącej do przewidywania nowych wartości parametrów. Najnowsze badania sugerują, że drugie pochodne mogą również stanowić przydatną informację w kontekście dobrej generalizacji. Być może dobrze generalizujący optymalizator powinien również brać pod uwagę kształt funkcji kosztu, a nie tylko jej wartość.Celem tej pracy jest zbadanie jak działają meta-optymalizatory poprzez porównanie ich do obecnie istniejących optymalizatorów i badanie Hessianu funkcji kosztu. Pragniemy również przeprowadzić pierwszą, według naszej wiedzy, próbę ulepszenia trenowanych optymalizatorów poprzez użycie przez nich informacji o drugich pochodnych.
dc.affiliationpl
Wydział Matematyki i Informatyki
dc.areapl
obszar nauk ścisłych
dc.contributor.advisorpl
Podolak, Igor - 100165
dc.contributor.authorpl
Sacha, Mikołaj
dc.contributor.departmentbycodepl
UJK/WMI2
dc.contributor.reviewerpl
Podolak, Igor - 100165
dc.contributor.reviewerpl
Spurek, Przemysław
dc.date.accessioned
2020-07-27T15:41:23Z
dc.date.available
2020-07-27T15:41:23Z
dc.date.submittedpl
2018-07-06
dc.fieldofstudypl
modelowanie, sztuczna inteligencja i sterowanie
dc.identifier.apdpl
diploma-123089-178013
dc.identifier.projectpl
APD / O
dc.identifier.uri
https://ruj.uj.edu.pl/xmlui/handle/item/227485
dc.languagepl
eng
dc.subject.enpl
machine learning, neural networks, meta-learning, optimization, learning to learn, meta-optimization, tensorflow
dc.subject.plpl
uczenie maszynowe, sieci neuronowe, meta-learning, meta-uczenie, optymalizacja, meta-optymalizacja, tensorflow
dc.titlepl
Exploration of optimisation based on meta-learning
dc.title.alternativepl
Eksploracja optymalizacji opartej o meta-learning
dc.typepl
master
dspace.entity.type
Publication
Affiliations

* The migration of download and view statistics prior to the date of April 8, 2024 is in progress.

Views
38
Views per month
Views per city
Warsaw
12
Krakow
7
Sanok
3
Wroclaw
3
Dublin
2
Gdansk
2
Bengaluru
1
Dietikon
1
Kedzierzyn-Kozle
1
Piaseczno
1

No access

No Thumbnail Available