Simple view
Full metadata view
Authors
Statistics
Zastosowanie sztucznych sieci neuronowych do przewidywania rejonów nieuporządkowanych w białkach
Prediction of proteins' disordered regions using artificial neural networks
sztuczne sieci neuronowe, białka nieuporządkowane, LSTM, przetwarzanie języka naturalnego, Word Embedding
artificial neural networks, disordered proteins, LSTM, NLP, Word Embedding
Białka zawierające rejony nieuporządkowane są obecnie popularnym obiektem badań wielu naukowców. Eksperymentalne poznanie wszystkich protein tego typu jest procesem bardzo czasochłonnym, dlatego coraz częściej podejmowane są próby wykorzystania w tym celu metod sztucznej inteligencji. Tematem niniejszej pracy jest zastosowanie sztucznych sieci neuronowych do przewidywania rejonów nieuporządkowanych w białkach. Celem tego projektu było głównie wprowadzenie nowego podejścia do analizowania sekwencji aminokwasowych z użyciem zarówno sztucznej sieci neuronowej typu LSTM, jak i metod przetwarzania języka naturalnego. Każda trójka aminokwasów w białku została potraktowana jak słowo, a następnie przedstawiona w przestrzeni 100-wymiarowej zgodnie z założeniami metody Word Embedding. Wektory te stały się danymi wejściowymi dla zaprojektowanej sieci neuronowej. Dokonano standardowych operacji trenowania oraz walidacji skuteczności przewidywania sieci, a także optymalizacji parametrów metodą grid search. Otrzymane wyniki zostały porównane z inną dostępną metodą do przewidywania rejonów nieuporządkowanych w białkach. Zaimplementowany model osiągnął ponad 80% skuteczności przewidywania, co jest wartością gorszą niż algorytm SPOT - Disorder. Podejście, które zostało zastosowanie w niniejszej pracy może zostać rozbudowane, dzięki czemu uzyskiwana skuteczność predykcji może wzrosnąć. Tym, co zdecydowanie odróżnia niniejszy projekt od innych jest wprowadzenie metod przetwarzania języka naturalnego do analizy białek.
Nowadays, proteins with disordered regions are popular research objects for many scientists. Experimental recognition of this kind of proteins is a very time consuming process, so attempts to use artificial intelligence methods to achieve this goal are more and more frequent. This thesis' topic is prediction of proteins' disordered regions using artificial neural networks. The main goal of this project was to introduce a new approach to aminoacids' sequences analysis with the usage of LSTM artificial neural networks and natural language processing methods. Every aminoacids' threesome was treated as a word, and then converted to 100dimension space using Word Embedding method. Those vectors were taken as input data for developed neural network. Standard training and validation of prediction was provided, as well as parameters' optimization based on grid search method. Received results were compared with another algorithm for predicting disordered regions in proteins. Implemented model achieved over 80% prediction's accuracy which is worse than SPOT - Disorder method. Approach that was introduced here, can be extended and improved, so that accuracy can be even higher. The main difference between this solution and others, is the fact that, NLP methods were used to analyzing proteins.
dc.abstract.en | Nowadays, proteins with disordered regions are popular research objects for many scientists. Experimental recognition of this kind of proteins is a very time consuming process, so attempts to use artificial intelligence methods to achieve this goal are more and more frequent. This thesis' topic is prediction of proteins' disordered regions using artificial neural networks. The main goal of this project was to introduce a new approach to aminoacids' sequences analysis with the usage of LSTM artificial neural networks and natural language processing methods. Every aminoacids' threesome was treated as a word, and then converted to 100dimension space using Word Embedding method. Those vectors were taken as input data for developed neural network. Standard training and validation of prediction was provided, as well as parameters' optimization based on grid search method. Received results were compared with another algorithm for predicting disordered regions in proteins. Implemented model achieved over 80% prediction's accuracy which is worse than SPOT - Disorder method. Approach that was introduced here, can be extended and improved, so that accuracy can be even higher. The main difference between this solution and others, is the fact that, NLP methods were used to analyzing proteins. | pl |
dc.abstract.pl | Białka zawierające rejony nieuporządkowane są obecnie popularnym obiektem badań wielu naukowców. Eksperymentalne poznanie wszystkich protein tego typu jest procesem bardzo czasochłonnym, dlatego coraz częściej podejmowane są próby wykorzystania w tym celu metod sztucznej inteligencji. Tematem niniejszej pracy jest zastosowanie sztucznych sieci neuronowych do przewidywania rejonów nieuporządkowanych w białkach. Celem tego projektu było głównie wprowadzenie nowego podejścia do analizowania sekwencji aminokwasowych z użyciem zarówno sztucznej sieci neuronowej typu LSTM, jak i metod przetwarzania języka naturalnego. Każda trójka aminokwasów w białku została potraktowana jak słowo, a następnie przedstawiona w przestrzeni 100-wymiarowej zgodnie z założeniami metody Word Embedding. Wektory te stały się danymi wejściowymi dla zaprojektowanej sieci neuronowej. Dokonano standardowych operacji trenowania oraz walidacji skuteczności przewidywania sieci, a także optymalizacji parametrów metodą grid search. Otrzymane wyniki zostały porównane z inną dostępną metodą do przewidywania rejonów nieuporządkowanych w białkach. Zaimplementowany model osiągnął ponad 80% skuteczności przewidywania, co jest wartością gorszą niż algorytm SPOT - Disorder. Podejście, które zostało zastosowanie w niniejszej pracy może zostać rozbudowane, dzięki czemu uzyskiwana skuteczność predykcji może wzrosnąć. Tym, co zdecydowanie odróżnia niniejszy projekt od innych jest wprowadzenie metod przetwarzania języka naturalnego do analizy białek. | pl |
dc.affiliation | Wydział Biochemii, Biofizyki i Biotechnologii | pl |
dc.area | obszar nauk ścisłych | pl |
dc.area | obszar nauk przyrodniczych | pl |
dc.contributor.advisor | Markiewicz, Michał - 160663 | pl |
dc.contributor.author | Garbacz, Karolina | pl |
dc.contributor.departmentbycode | UJK/WBBB | pl |
dc.contributor.reviewer | Pasenkiewicz-Gierula, Marta - 131288 | pl |
dc.contributor.reviewer | Markiewicz, Michał - 160663 | pl |
dc.date.accessioned | 2020-07-27T17:28:46Z | |
dc.date.available | 2020-07-27T17:28:46Z | |
dc.date.submitted | 2019-06-26 | pl |
dc.fieldofstudy | bioinformatyka z biofizyką stosowaną | pl |
dc.identifier.apd | diploma-124855-231817 | pl |
dc.identifier.project | APD / O | pl |
dc.identifier.uri | https://ruj.uj.edu.pl/xmlui/handle/item/229117 | |
dc.language | pol | pl |
dc.subject.en | artificial neural networks, disordered proteins, LSTM, NLP, Word Embedding | pl |
dc.subject.pl | sztuczne sieci neuronowe, białka nieuporządkowane, LSTM, przetwarzanie języka naturalnego, Word Embedding | pl |
dc.title | Zastosowanie sztucznych sieci neuronowych do przewidywania rejonów nieuporządkowanych w białkach | pl |
dc.title.alternative | Prediction of proteins' disordered regions using artificial neural networks | pl |
dc.type | master | pl |
dspace.entity.type | Publication |