Correlation analysis of multi-layer perceptron learning process

master
1
dc.abstract.enThe following research study was conducted to investigate the learning dynamics of a multi-layer perceptron (MLP). Based on (Saxe \textit{et al}., 2013) we determined a precise analytical formula for mean square error loss function for linear MLPs, derived the equations of motion resulting from it and compared obtained results with numerical simulations. The presented analytical model predicts correctly the equilibrium state of trained MLPs but fails to describe spatial and temporal correlations within weights and biases. Subsequently, we carried out a qualitative analysis of spatial and temporal correlations in a broad class of linear and nonlinear MLPs. The following effects have been observed: the main feature determining the final model performance is weights' initialization, whereas the dynamics of the model parameters is shaped by both the weights' initialization and the choice of the optimization criterion. The architecture and the size of the model have almost negligible influence on both of the above-mentioned criteria. In well-trained models the eigenspectrum of autocorrelation and cross-correlation matrices calculated for weights and biases in consecutive layers overlap and is mostly equal to the numerical zero; On the contrary, in models that overfit, the eigenvalues are not only larger but the eigenspectrum of autocorrelation and cross-correlation matrices calculated for weights and biases in consecutive layers is shifted relative to each other. Finally, the spectrum of autocorrelation and cross-correlation matrices and the loss function landscape can be used for model evaluation, as they reflect how good MLP models are.pl
dc.abstract.plNiniejsza praca badawcza została przeprowadzona w celu zbadania dynamiki uczenia się perceptronu wielowarstwowego (MLP). Na podstawie (Saxe \textit{et al}., 2013) wyznaczono dokładny wzór analityczny na błąd średniokwadratowy dla liniowych MLP, wyprowadzono wynikające z niego równania ruchu oraz porównano otrzymane wyniki z symulacjami numerycznymi. Przedstawiony model analityczny poprawnie przewiduje stan równowagi dla wytrenowanych MLP, ale nie opisuje korelacji przestrzennych i czasowych wewnątrz wag i biasów. W dalszej części pracy przeprowadziliśmy jakościową analizę korelacji przestrzennych i czasowych w szerokiej klasie liniowych i nieliniowych MLP. Zaobserwowano, że cechą determinującą końcową skuteczność modelu jest w głównej mierze inicjalizacja wag, natomiast dynamika parametrów modelu jest kształtowana zarówno przez inicjalizację wag, jak i wybór kryterium optymalizacji. Architektura i rozmiar modelu mają znikomy wpływ na oba powyższe kryteria. W dobrze wytrenowanych modelach widma macierzy autokorelacji i korelacji krzyżowej obliczone dla wag i biasów w kolejnych warstwach pokrywają się ze sobą i są w dużej mierze równe zeru numerycznemu; W modelach overfitujących widma macierzy autokorelacji i korelacji krzyżowej obliczone dla wag i biasów w kolejnych warstwach są przesunięte względem siebie, zaś znaczna część wartości własnych jest różna od zera. Widmo macierzy autokorelacji i korelacji krzyżowej oraz rozkład funkcji straty odzwierciedlają jak dobry jest dany model, więc mogą zostać wykorzystane do oceny modelu.pl
dc.affiliationWydział Fizyki, Astronomii i Informatyki Stosowanejpl
dc.areaobszar nauk ścisłychpl
dc.contributor.advisorOchab, Jeremipl
dc.contributor.authorLewandowska, Mariapl
dc.contributor.departmentbycodeUJK/WFAISpl
dc.contributor.reviewerOchab, Jeremipl
dc.contributor.reviewerJanik, Romuald - 100502 pl
dc.date.accessioned2021-10-14T21:37:46Z
dc.date.available2021-10-14T21:37:46Z
dc.date.submitted2021-10-12pl
dc.fieldofstudyfizykapl
dc.identifier.apddiploma-150456-228950pl
dc.identifier.projectAPD / Opl
dc.identifier.urihttps://ruj.uj.edu.pl/xmlui/handle/item/280468
dc.languageengpl
dc.subject.enartificial neural networks, multi-layer perceptron, neural network dynamics, deep learning, temporal correlations, spatial correlationspl
dc.subject.plsztuczne sieci neuronowe, wielowarstwowy perceptron, dynamika sieci neuronowych, głębokie uczenie, korelacje czasowe, korelacje przestrzennepl
dc.titleCorrelation analysis of multi-layer perceptron learning processpl
dc.title.alternativeAnaliza korelacji procesu uczenia wielowarstwowego perceptronupl
dc.typemasterpl
dspace.entity.typePublication
Affiliations

* The migration of download and view statistics prior to the date of April 8, 2024 is in progress.

Views
1
Views per month
Views per city
Wroclaw
1

No access

No Thumbnail Available