Zastosowanie sztucznych sieci neuronowych do przewidywania rejonów nieuporządkowanych w białkach

master
dc.abstract.enNowadays, proteins with disordered regions are popular research objects for many scientists. Experimental recognition of this kind of proteins is a very time consuming process, so attempts to use artificial intelligence methods to achieve this goal are more and more frequent. This thesis' topic is prediction of proteins' disordered regions using artificial neural networks. The main goal of this project was to introduce a new approach to aminoacids' sequences analysis with the usage of LSTM artificial neural networks and natural language processing methods. Every aminoacids' threesome was treated as a word, and then converted to 100dimension space using Word Embedding method. Those vectors were taken as input data for developed neural network. Standard training and validation of prediction was provided, as well as parameters' optimization based on grid search method. Received results were compared with another algorithm for predicting disordered regions in proteins. Implemented model achieved over 80% prediction's accuracy which is worse than SPOT - Disorder method. Approach that was introduced here, can be extended and improved, so that accuracy can be even higher. The main difference between this solution and others, is the fact that, NLP methods were used to analyzing proteins.pl
dc.abstract.plBiałka zawierające rejony nieuporządkowane są obecnie popularnym obiektem badań wielu naukowców. Eksperymentalne poznanie wszystkich protein tego typu jest procesem bardzo czasochłonnym, dlatego coraz częściej podejmowane są próby wykorzystania w tym celu metod sztucznej inteligencji. Tematem niniejszej pracy jest zastosowanie sztucznych sieci neuronowych do przewidywania rejonów nieuporządkowanych w białkach. Celem tego projektu było głównie wprowadzenie nowego podejścia do analizowania sekwencji aminokwasowych z użyciem zarówno sztucznej sieci neuronowej typu LSTM, jak i metod przetwarzania języka naturalnego. Każda trójka aminokwasów w białku została potraktowana jak słowo, a następnie przedstawiona w przestrzeni 100-wymiarowej zgodnie z założeniami metody Word Embedding. Wektory te stały się danymi wejściowymi dla zaprojektowanej sieci neuronowej. Dokonano standardowych operacji trenowania oraz walidacji skuteczności przewidywania sieci, a także optymalizacji parametrów metodą grid search. Otrzymane wyniki zostały porównane z inną dostępną metodą do przewidywania rejonów nieuporządkowanych w białkach. Zaimplementowany model osiągnął ponad 80% skuteczności przewidywania, co jest wartością gorszą niż algorytm SPOT - Disorder. Podejście, które zostało zastosowanie w niniejszej pracy może zostać rozbudowane, dzięki czemu uzyskiwana skuteczność predykcji może wzrosnąć. Tym, co zdecydowanie odróżnia niniejszy projekt od innych jest wprowadzenie metod przetwarzania języka naturalnego do analizy białek.pl
dc.affiliationWydział Biochemii, Biofizyki i Biotechnologiipl
dc.areaobszar nauk ścisłychpl
dc.areaobszar nauk przyrodniczychpl
dc.contributor.advisorMarkiewicz, Michał - 160663 pl
dc.contributor.authorGarbacz, Karolinapl
dc.contributor.departmentbycodeUJK/WBBBpl
dc.contributor.reviewerPasenkiewicz-Gierula, Marta - 131288 pl
dc.contributor.reviewerMarkiewicz, Michał - 160663 pl
dc.date.accessioned2020-07-27T17:28:46Z
dc.date.available2020-07-27T17:28:46Z
dc.date.submitted2019-06-26pl
dc.fieldofstudybioinformatyka z biofizyką stosowanąpl
dc.identifier.apddiploma-124855-231817pl
dc.identifier.projectAPD / Opl
dc.identifier.urihttps://ruj.uj.edu.pl/xmlui/handle/item/229117
dc.languagepolpl
dc.subject.enartificial neural networks, disordered proteins, LSTM, NLP, Word Embeddingpl
dc.subject.plsztuczne sieci neuronowe, białka nieuporządkowane, LSTM, przetwarzanie języka naturalnego, Word Embeddingpl
dc.titleZastosowanie sztucznych sieci neuronowych do przewidywania rejonów nieuporządkowanych w białkachpl
dc.title.alternativePrediction of proteins' disordered regions using artificial neural networkspl
dc.typemasterpl
dspace.entity.typePublication
dc.abstract.enpl
Nowadays, proteins with disordered regions are popular research objects for many scientists. Experimental recognition of this kind of proteins is a very time consuming process, so attempts to use artificial intelligence methods to achieve this goal are more and more frequent. This thesis' topic is prediction of proteins' disordered regions using artificial neural networks. The main goal of this project was to introduce a new approach to aminoacids' sequences analysis with the usage of LSTM artificial neural networks and natural language processing methods. Every aminoacids' threesome was treated as a word, and then converted to 100dimension space using Word Embedding method. Those vectors were taken as input data for developed neural network. Standard training and validation of prediction was provided, as well as parameters' optimization based on grid search method. Received results were compared with another algorithm for predicting disordered regions in proteins. Implemented model achieved over 80% prediction's accuracy which is worse than SPOT - Disorder method. Approach that was introduced here, can be extended and improved, so that accuracy can be even higher. The main difference between this solution and others, is the fact that, NLP methods were used to analyzing proteins.
dc.abstract.plpl
Białka zawierające rejony nieuporządkowane są obecnie popularnym obiektem badań wielu naukowców. Eksperymentalne poznanie wszystkich protein tego typu jest procesem bardzo czasochłonnym, dlatego coraz częściej podejmowane są próby wykorzystania w tym celu metod sztucznej inteligencji. Tematem niniejszej pracy jest zastosowanie sztucznych sieci neuronowych do przewidywania rejonów nieuporządkowanych w białkach. Celem tego projektu było głównie wprowadzenie nowego podejścia do analizowania sekwencji aminokwasowych z użyciem zarówno sztucznej sieci neuronowej typu LSTM, jak i metod przetwarzania języka naturalnego. Każda trójka aminokwasów w białku została potraktowana jak słowo, a następnie przedstawiona w przestrzeni 100-wymiarowej zgodnie z założeniami metody Word Embedding. Wektory te stały się danymi wejściowymi dla zaprojektowanej sieci neuronowej. Dokonano standardowych operacji trenowania oraz walidacji skuteczności przewidywania sieci, a także optymalizacji parametrów metodą grid search. Otrzymane wyniki zostały porównane z inną dostępną metodą do przewidywania rejonów nieuporządkowanych w białkach. Zaimplementowany model osiągnął ponad 80% skuteczności przewidywania, co jest wartością gorszą niż algorytm SPOT - Disorder. Podejście, które zostało zastosowanie w niniejszej pracy może zostać rozbudowane, dzięki czemu uzyskiwana skuteczność predykcji może wzrosnąć. Tym, co zdecydowanie odróżnia niniejszy projekt od innych jest wprowadzenie metod przetwarzania języka naturalnego do analizy białek.
dc.affiliationpl
Wydział Biochemii, Biofizyki i Biotechnologii
dc.areapl
obszar nauk ścisłych
dc.areapl
obszar nauk przyrodniczych
dc.contributor.advisorpl
Markiewicz, Michał - 160663
dc.contributor.authorpl
Garbacz, Karolina
dc.contributor.departmentbycodepl
UJK/WBBB
dc.contributor.reviewerpl
Pasenkiewicz-Gierula, Marta - 131288
dc.contributor.reviewerpl
Markiewicz, Michał - 160663
dc.date.accessioned
2020-07-27T17:28:46Z
dc.date.available
2020-07-27T17:28:46Z
dc.date.submittedpl
2019-06-26
dc.fieldofstudypl
bioinformatyka z biofizyką stosowaną
dc.identifier.apdpl
diploma-124855-231817
dc.identifier.projectpl
APD / O
dc.identifier.uri
https://ruj.uj.edu.pl/xmlui/handle/item/229117
dc.languagepl
pol
dc.subject.enpl
artificial neural networks, disordered proteins, LSTM, NLP, Word Embedding
dc.subject.plpl
sztuczne sieci neuronowe, białka nieuporządkowane, LSTM, przetwarzanie języka naturalnego, Word Embedding
dc.titlepl
Zastosowanie sztucznych sieci neuronowych do przewidywania rejonów nieuporządkowanych w białkach
dc.title.alternativepl
Prediction of proteins' disordered regions using artificial neural networks
dc.typepl
master
dspace.entity.type
Publication
Affiliations

* The migration of download and view statistics prior to the date of April 8, 2024 is in progress.

Views
47
Views per month
Views per city
Warsaw
12
Wroclaw
4
Gdynia
3
Gdansk
2
Katowice
2
Krakow
2
Poznan
2
Rzeszów
2
Sanok
2
Szczecin
2

No access

No Thumbnail Available