Simple view
Full metadata view
Authors
Statistics
Exploration of optimisation based on meta-learning
Eksploracja optymalizacji opartej o meta-learning
uczenie maszynowe, sieci neuronowe, meta-learning, meta-uczenie, optymalizacja, meta-optymalizacja, tensorflow
machine learning, neural networks, meta-learning, optimization, learning to learn, meta-optimization, tensorflow
Sztuczne sieci neuronowe są jednym z najważniejszych aproksymatorów funkcji, powszechnie stosowanym w rozpoznawaniu wzorców i uczeniu maszynowym. Jednym z głównych przyczyn ich sukcesu jest możliwość trenowania ich przy użyciu gradientów obliczanych relatywnie mało kosztowną metodą propagacji wstecznej.Głównym wyzwaniem podczas trenowania modelu uczącego się jest osiągnięcie dobrej generalizacji, oznaczającej przewidywanie wartości wyjściowych dla nowych danych. To zadanie robi się trudniejsze dla małych zbiorów danych. W skrajnych przypadkach dane mogą składać się jedynie z kilku przykładów treningowych. Taki rodzaj problemu określany jest mianem few-shot learning.Jednym z możliwych podejść do few-shot learningu jest projektowanie lepszych optymalizatorów. Optymalizator sieci neuronowych może sam w sobie stanowić sieć neuronową, która może być trenowana na zbiorze podobnych zadaniach uczenia maszynowego. Taki rodzaj optymalizatora nosi nazwę meta-optymalizatora, a trenowanie go meta-uczeniem.Współczesne meta-optymalizatory używają gradientów pierwszego stopnia jako głównej informacji służącej do przewidywania nowych wartości parametrów. Najnowsze badania sugerują, że drugie pochodne mogą również stanowić przydatną informację w kontekście dobrej generalizacji. Być może dobrze generalizujący optymalizator powinien również brać pod uwagę kształt funkcji kosztu, a nie tylko jej wartość.Celem tej pracy jest zbadanie jak działają meta-optymalizatory poprzez porównanie ich do obecnie istniejących optymalizatorów i badanie Hessianu funkcji kosztu. Pragniemy również przeprowadzić pierwszą, według naszej wiedzy, próbę ulepszenia trenowanych optymalizatorów poprzez użycie przez nich informacji o drugich pochodnych.
Artificial neural networks are one of the essential function approximators ubiquitously employed in pattern recognition and machine learning. One of the key reasons for their success is the ability to be trained using gradients calculated by relatively inexpensive backpropagation method. The main challenge of training machine learning models is to achieve good generalization, that is to correctly predict output values for unseen data. This task gets harder with smaller training data sets and in extreme setups there may be only a handful of training samples. Such setup is often called one-shot learning or few-shot learning.One way to approach few-shot learning problems is to design a better optimizer. The optimizer of neural networks can be a neural network itself and could be trained on several similar machine learning tasks. This kind of optimizer can be called meta-learner and the task of training it is meta-learning or optimizer learning.State-of-the-art meta-learner models use first-order gradients as the main information for predicting new values of parameters. Recent research suggests that second-order derivatives can also be informative when it comes to good generalization. Arguably, an optimizer that generalizes well should take into account not only the value of the cost function but also its shape.The goal of this thesis is to investigate how meta-learners work by comparing them to existing optimizers and inspecting Hessian of the loss function. We also aim to provide a first, to our knowledge, investigation into potential benefits of using second-order information in learned optimizers.
dc.abstract.en | Artificial neural networks are one of the essential function approximators ubiquitously employed in pattern recognition and machine learning. One of the key reasons for their success is the ability to be trained using gradients calculated by relatively inexpensive backpropagation method. The main challenge of training machine learning models is to achieve good generalization, that is to correctly predict output values for unseen data. This task gets harder with smaller training data sets and in extreme setups there may be only a handful of training samples. Such setup is often called one-shot learning or few-shot learning.One way to approach few-shot learning problems is to design a better optimizer. The optimizer of neural networks can be a neural network itself and could be trained on several similar machine learning tasks. This kind of optimizer can be called meta-learner and the task of training it is meta-learning or optimizer learning.State-of-the-art meta-learner models use first-order gradients as the main information for predicting new values of parameters. Recent research suggests that second-order derivatives can also be informative when it comes to good generalization. Arguably, an optimizer that generalizes well should take into account not only the value of the cost function but also its shape.The goal of this thesis is to investigate how meta-learners work by comparing them to existing optimizers and inspecting Hessian of the loss function. We also aim to provide a first, to our knowledge, investigation into potential benefits of using second-order information in learned optimizers. | pl |
dc.abstract.pl | Sztuczne sieci neuronowe są jednym z najważniejszych aproksymatorów funkcji, powszechnie stosowanym w rozpoznawaniu wzorców i uczeniu maszynowym. Jednym z głównych przyczyn ich sukcesu jest możliwość trenowania ich przy użyciu gradientów obliczanych relatywnie mało kosztowną metodą propagacji wstecznej.Głównym wyzwaniem podczas trenowania modelu uczącego się jest osiągnięcie dobrej generalizacji, oznaczającej przewidywanie wartości wyjściowych dla nowych danych. To zadanie robi się trudniejsze dla małych zbiorów danych. W skrajnych przypadkach dane mogą składać się jedynie z kilku przykładów treningowych. Taki rodzaj problemu określany jest mianem few-shot learning.Jednym z możliwych podejść do few-shot learningu jest projektowanie lepszych optymalizatorów. Optymalizator sieci neuronowych może sam w sobie stanowić sieć neuronową, która może być trenowana na zbiorze podobnych zadaniach uczenia maszynowego. Taki rodzaj optymalizatora nosi nazwę meta-optymalizatora, a trenowanie go meta-uczeniem.Współczesne meta-optymalizatory używają gradientów pierwszego stopnia jako głównej informacji służącej do przewidywania nowych wartości parametrów. Najnowsze badania sugerują, że drugie pochodne mogą również stanowić przydatną informację w kontekście dobrej generalizacji. Być może dobrze generalizujący optymalizator powinien również brać pod uwagę kształt funkcji kosztu, a nie tylko jej wartość.Celem tej pracy jest zbadanie jak działają meta-optymalizatory poprzez porównanie ich do obecnie istniejących optymalizatorów i badanie Hessianu funkcji kosztu. Pragniemy również przeprowadzić pierwszą, według naszej wiedzy, próbę ulepszenia trenowanych optymalizatorów poprzez użycie przez nich informacji o drugich pochodnych. | pl |
dc.affiliation | Wydział Matematyki i Informatyki | pl |
dc.area | obszar nauk ścisłych | pl |
dc.contributor.advisor | Podolak, Igor - 100165 | pl |
dc.contributor.author | Sacha, Mikołaj | pl |
dc.contributor.departmentbycode | UJK/WMI2 | pl |
dc.contributor.reviewer | Podolak, Igor - 100165 | pl |
dc.contributor.reviewer | Spurek, Przemysław | pl |
dc.date.accessioned | 2020-07-27T15:41:23Z | |
dc.date.available | 2020-07-27T15:41:23Z | |
dc.date.submitted | 2018-07-06 | pl |
dc.fieldofstudy | modelowanie, sztuczna inteligencja i sterowanie | pl |
dc.identifier.apd | diploma-123089-178013 | pl |
dc.identifier.project | APD / O | pl |
dc.identifier.uri | https://ruj.uj.edu.pl/xmlui/handle/item/227485 | |
dc.language | eng | pl |
dc.subject.en | machine learning, neural networks, meta-learning, optimization, learning to learn, meta-optimization, tensorflow | pl |
dc.subject.pl | uczenie maszynowe, sieci neuronowe, meta-learning, meta-uczenie, optymalizacja, meta-optymalizacja, tensorflow | pl |
dc.title | Exploration of optimisation based on meta-learning | pl |
dc.title.alternative | Eksploracja optymalizacji opartej o meta-learning | pl |
dc.type | master | pl |
dspace.entity.type | Publication |