Exploration of optimisation based on meta-learning

Sacha, Mikołaj

Simple view

Full metadata view

Authors

Statistics

Exploration of optimisation based on meta-learning

master

Alternative title

Eksploracja optymalizacji opartej o meta-learning

Author

Sacha Mikołaj

Reviewer

Podolak Igor

Spurek Przemysław

Advisor

Podolak Igor

Date of defence

2018-07-06

Keywords in Polish

uczenie maszynowe, sieci neuronowe, meta-learning, meta-uczenie, optymalizacja, meta-optymalizacja, tensorflow

Keywords in English

machine learning, neural networks, meta-learning, optimization, learning to learn, meta-optimization, tensorflow

Language

English

Abstract in Polish

Sztuczne sieci neuronowe są jednym z najważniejszych aproksymatorów funkcji, powszechnie stosowanym w rozpoznawaniu wzorców i uczeniu maszynowym. Jednym z głównych przyczyn ich sukcesu jest możliwość trenowania ich przy użyciu gradientów obliczanych relatywnie mało kosztowną metodą propagacji wstecznej.Głównym wyzwaniem podczas trenowania modelu uczącego się jest osiągnięcie dobrej generalizacji, oznaczającej przewidywanie wartości wyjściowych dla nowych danych. To zadanie robi się trudniejsze dla małych zbiorów danych. W skrajnych przypadkach dane mogą składać się jedynie z kilku przykładów treningowych. Taki rodzaj problemu określany jest mianem few-shot learning.Jednym z możliwych podejść do few-shot learningu jest projektowanie lepszych optymalizatorów. Optymalizator sieci neuronowych może sam w sobie stanowić sieć neuronową, która może być trenowana na zbiorze podobnych zadaniach uczenia maszynowego. Taki rodzaj optymalizatora nosi nazwę meta-optymalizatora, a trenowanie go meta-uczeniem.Współczesne meta-optymalizatory używają gradientów pierwszego stopnia jako głównej informacji służącej do przewidywania nowych wartości parametrów. Najnowsze badania sugerują, że drugie pochodne mogą również stanowić przydatną informację w kontekście dobrej generalizacji. Być może dobrze generalizujący optymalizator powinien również brać pod uwagę kształt funkcji kosztu, a nie tylko jej wartość.Celem tej pracy jest zbadanie jak działają meta-optymalizatory poprzez porównanie ich do obecnie istniejących optymalizatorów i badanie Hessianu funkcji kosztu. Pragniemy również przeprowadzić pierwszą, według naszej wiedzy, próbę ulepszenia trenowanych optymalizatorów poprzez użycie przez nich informacji o drugich pochodnych.

Abstract in English

Artificial neural networks are one of the essential function approximators ubiquitously employed in pattern recognition and machine learning. One of the key reasons for their success is the ability to be trained using gradients calculated by relatively inexpensive backpropagation method. The main challenge of training machine learning models is to achieve good generalization, that is to correctly predict output values for unseen data. This task gets harder with smaller training data sets and in extreme setups there may be only a handful of training samples. Such setup is often called one-shot learning or few-shot learning.One way to approach few-shot learning problems is to design a better optimizer. The optimizer of neural networks can be a neural network itself and could be trained on several similar machine learning tasks. This kind of optimizer can be called meta-learner and the task of training it is meta-learning or optimizer learning.State-of-the-art meta-learner models use first-order gradients as the main information for predicting new values of parameters. Recent research suggests that second-order derivatives can also be informative when it comes to good generalization. Arguably, an optimizer that generalizes well should take into account not only the value of the cost function but also its shape.The goal of this thesis is to investigate how meta-learners work by comparing them to existing optimizers and inspecting Hessian of the loss function. We also aim to provide a first, to our knowledge, investigation into potential benefits of using second-order information in learned optimizers.

dc.abstract.en	Artificial neural networks are one of the essential function approximators ubiquitously employed in pattern recognition and machine learning. One of the key reasons for their success is the ability to be trained using gradients calculated by relatively inexpensive backpropagation method. The main challenge of training machine learning models is to achieve good generalization, that is to correctly predict output values for unseen data. This task gets harder with smaller training data sets and in extreme setups there may be only a handful of training samples. Such setup is often called one-shot learning or few-shot learning.One way to approach few-shot learning problems is to design a better optimizer. The optimizer of neural networks can be a neural network itself and could be trained on several similar machine learning tasks. This kind of optimizer can be called meta-learner and the task of training it is meta-learning or optimizer learning.State-of-the-art meta-learner models use first-order gradients as the main information for predicting new values of parameters. Recent research suggests that second-order derivatives can also be informative when it comes to good generalization. Arguably, an optimizer that generalizes well should take into account not only the value of the cost function but also its shape.The goal of this thesis is to investigate how meta-learners work by comparing them to existing optimizers and inspecting Hessian of the loss function. We also aim to provide a first, to our knowledge, investigation into potential benefits of using second-order information in learned optimizers.	pl
dc.abstract.pl	Sztuczne sieci neuronowe są jednym z najważniejszych aproksymatorów funkcji, powszechnie stosowanym w rozpoznawaniu wzorców i uczeniu maszynowym. Jednym z głównych przyczyn ich sukcesu jest możliwość trenowania ich przy użyciu gradientów obliczanych relatywnie mało kosztowną metodą propagacji wstecznej.Głównym wyzwaniem podczas trenowania modelu uczącego się jest osiągnięcie dobrej generalizacji, oznaczającej przewidywanie wartości wyjściowych dla nowych danych. To zadanie robi się trudniejsze dla małych zbiorów danych. W skrajnych przypadkach dane mogą składać się jedynie z kilku przykładów treningowych. Taki rodzaj problemu określany jest mianem few-shot learning.Jednym z możliwych podejść do few-shot learningu jest projektowanie lepszych optymalizatorów. Optymalizator sieci neuronowych może sam w sobie stanowić sieć neuronową, która może być trenowana na zbiorze podobnych zadaniach uczenia maszynowego. Taki rodzaj optymalizatora nosi nazwę meta-optymalizatora, a trenowanie go meta-uczeniem.Współczesne meta-optymalizatory używają gradientów pierwszego stopnia jako głównej informacji służącej do przewidywania nowych wartości parametrów. Najnowsze badania sugerują, że drugie pochodne mogą również stanowić przydatną informację w kontekście dobrej generalizacji. Być może dobrze generalizujący optymalizator powinien również brać pod uwagę kształt funkcji kosztu, a nie tylko jej wartość.Celem tej pracy jest zbadanie jak działają meta-optymalizatory poprzez porównanie ich do obecnie istniejących optymalizatorów i badanie Hessianu funkcji kosztu. Pragniemy również przeprowadzić pierwszą, według naszej wiedzy, próbę ulepszenia trenowanych optymalizatorów poprzez użycie przez nich informacji o drugich pochodnych.	pl
dc.affiliation	Wydział Matematyki i Informatyki	pl
dc.area	obszar nauk ścisłych	pl
dc.contributor.advisor	Podolak, Igor - 100165	pl
dc.contributor.author	Sacha, Mikołaj	pl
dc.contributor.departmentbycode	UJK/WMI2	pl
dc.contributor.reviewer	Podolak, Igor - 100165	pl
dc.contributor.reviewer	Spurek, Przemysław	pl
dc.date.accessioned	2020-07-27T15:41:23Z
dc.date.available	2020-07-27T15:41:23Z
dc.date.submitted	2018-07-06	pl
dc.fieldofstudy	modelowanie, sztuczna inteligencja i sterowanie	pl
dc.identifier.apd	diploma-123089-178013	pl
dc.identifier.project	APD / O	pl
dc.identifier.uri	https://ruj.uj.edu.pl/xmlui/handle/item/227485
dc.language	eng	pl
dc.subject.en	machine learning, neural networks, meta-learning, optimization, learning to learn, meta-optimization, tensorflow	pl
dc.subject.pl	uczenie maszynowe, sieci neuronowe, meta-learning, meta-uczenie, optymalizacja, meta-optymalizacja, tensorflow	pl
dc.title	Exploration of optimisation based on meta-learning	pl
dc.title.alternative	Eksploracja optymalizacji opartej o meta-learning	pl
dc.type	master	pl
dspace.entity.type	Publication

dc.abstract.enpl

Artificial neural networks are one of the essential function approximators ubiquitously employed in pattern recognition and machine learning. One of the key reasons for their success is the ability to be trained using gradients calculated by relatively inexpensive backpropagation method. The main challenge of training machine learning models is to achieve good generalization, that is to correctly predict output values for unseen data. This task gets harder with smaller training data sets and in extreme setups there may be only a handful of training samples. Such setup is often called one-shot learning or few-shot learning.One way to approach few-shot learning problems is to design a better optimizer. The optimizer of neural networks can be a neural network itself and could be trained on several similar machine learning tasks. This kind of optimizer can be called meta-learner and the task of training it is meta-learning or optimizer learning.State-of-the-art meta-learner models use first-order gradients as the main information for predicting new values of parameters. Recent research suggests that second-order derivatives can also be informative when it comes to good generalization. Arguably, an optimizer that generalizes well should take into account not only the value of the cost function but also its shape.The goal of this thesis is to investigate how meta-learners work by comparing them to existing optimizers and inspecting Hessian of the loss function. We also aim to provide a first, to our knowledge, investigation into potential benefits of using second-order information in learned optimizers.

dc.abstract.plpl

Sztuczne sieci neuronowe są jednym z najważniejszych aproksymatorów funkcji, powszechnie stosowanym w rozpoznawaniu wzorców i uczeniu maszynowym. Jednym z głównych przyczyn ich sukcesu jest możliwość trenowania ich przy użyciu gradientów obliczanych relatywnie mało kosztowną metodą propagacji wstecznej.Głównym wyzwaniem podczas trenowania modelu uczącego się jest osiągnięcie dobrej generalizacji, oznaczającej przewidywanie wartości wyjściowych dla nowych danych. To zadanie robi się trudniejsze dla małych zbiorów danych. W skrajnych przypadkach dane mogą składać się jedynie z kilku przykładów treningowych. Taki rodzaj problemu określany jest mianem few-shot learning.Jednym z możliwych podejść do few-shot learningu jest projektowanie lepszych optymalizatorów. Optymalizator sieci neuronowych może sam w sobie stanowić sieć neuronową, która może być trenowana na zbiorze podobnych zadaniach uczenia maszynowego. Taki rodzaj optymalizatora nosi nazwę meta-optymalizatora, a trenowanie go meta-uczeniem.Współczesne meta-optymalizatory używają gradientów pierwszego stopnia jako głównej informacji służącej do przewidywania nowych wartości parametrów. Najnowsze badania sugerują, że drugie pochodne mogą również stanowić przydatną informację w kontekście dobrej generalizacji. Być może dobrze generalizujący optymalizator powinien również brać pod uwagę kształt funkcji kosztu, a nie tylko jej wartość.Celem tej pracy jest zbadanie jak działają meta-optymalizatory poprzez porównanie ich do obecnie istniejących optymalizatorów i badanie Hessianu funkcji kosztu. Pragniemy również przeprowadzić pierwszą, według naszej wiedzy, próbę ulepszenia trenowanych optymalizatorów poprzez użycie przez nich informacji o drugich pochodnych.

dc.affiliationpl

Wydział Matematyki i Informatyki

dc.areapl

obszar nauk ścisłych

dc.contributor.advisorpl

Podolak, Igor - 100165

dc.contributor.authorpl

Sacha, Mikołaj

dc.contributor.departmentbycodepl

UJK/WMI2

dc.contributor.reviewerpl

Podolak, Igor - 100165

dc.contributor.reviewerpl

Spurek, Przemysław

dc.date.accessioned

2020-07-27T15:41:23Z

dc.date.available

2020-07-27T15:41:23Z

dc.date.submittedpl

2018-07-06

dc.fieldofstudypl

modelowanie, sztuczna inteligencja i sterowanie

dc.identifier.apdpl

diploma-123089-178013

dc.identifier.projectpl

APD / O

dc.identifier.uri

https://ruj.uj.edu.pl/xmlui/handle/item/227485

dc.languagepl

eng

dc.subject.enpl

machine learning, neural networks, meta-learning, optimization, learning to learn, meta-optimization, tensorflow

dc.subject.plpl

uczenie maszynowe, sieci neuronowe, meta-learning, meta-uczenie, optymalizacja, meta-optymalizacja, tensorflow

dc.titlepl

Exploration of optimisation based on meta-learning

dc.title.alternativepl

Eksploracja optymalizacji opartej o meta-learning

dc.typepl

master

dspace.entity.type

Publication

Affiliations

No affiliation

Sacha, Mikołaj

Podolak, Igor

Spurek, Przemysław

* The migration of download and view statistics prior to the date of April 8, 2024 is in progress.

Views

38 Views per month

Views per city

Warsaw

12

Krakow

7

Sanok

3

Wroclaw

3

Dublin

2

Gdansk

2

Bengaluru

1

Dietikon

1

Kedzierzyn-Kozle

1

Piaseczno

1

No access

Collections

Masters theses

ROD UJ