Zastosowanie sztucznych sieci neuronowych do przewidywania rejonów nieuporządkowanych w białkach

Garbacz, Karolina

Simple view

Full metadata view

Authors

Statistics

Zastosowanie sztucznych sieci neuronowych do przewidywania rejonów nieuporządkowanych w białkach

master

Alternative title

Prediction of proteins' disordered regions using artificial neural networks

Author

Garbacz Karolina

Reviewer

Pasenkiewicz-Gierula Marta

Markiewicz Michał

Advisor

Markiewicz Michał

Date of defence

2019-06-26

Keywords in Polish

sztuczne sieci neuronowe, białka nieuporządkowane, LSTM, przetwarzanie języka naturalnego, Word Embedding

Keywords in English

artificial neural networks, disordered proteins, LSTM, NLP, Word Embedding

Language

Polish

Abstract in Polish

Białka zawierające rejony nieuporządkowane są obecnie popularnym obiektem badań wielu naukowców. Eksperymentalne poznanie wszystkich protein tego typu jest procesem bardzo czasochłonnym, dlatego coraz częściej podejmowane są próby wykorzystania w tym celu metod sztucznej inteligencji. Tematem niniejszej pracy jest zastosowanie sztucznych sieci neuronowych do przewidywania rejonów nieuporządkowanych w białkach. Celem tego projektu było głównie wprowadzenie nowego podejścia do analizowania sekwencji aminokwasowych z użyciem zarówno sztucznej sieci neuronowej typu LSTM, jak i metod przetwarzania języka naturalnego. Każda trójka aminokwasów w białku została potraktowana jak słowo, a następnie przedstawiona w przestrzeni 100-wymiarowej zgodnie z założeniami metody Word Embedding. Wektory te stały się danymi wejściowymi dla zaprojektowanej sieci neuronowej. Dokonano standardowych operacji trenowania oraz walidacji skuteczności przewidywania sieci, a także optymalizacji parametrów metodą grid search. Otrzymane wyniki zostały porównane z inną dostępną metodą do przewidywania rejonów nieuporządkowanych w białkach. Zaimplementowany model osiągnął ponad 80% skuteczności przewidywania, co jest wartością gorszą niż algorytm SPOT - Disorder. Podejście, które zostało zastosowanie w niniejszej pracy może zostać rozbudowane, dzięki czemu uzyskiwana skuteczność predykcji może wzrosnąć. Tym, co zdecydowanie odróżnia niniejszy projekt od innych jest wprowadzenie metod przetwarzania języka naturalnego do analizy białek.

Abstract in English

Nowadays, proteins with disordered regions are popular research objects for many scientists. Experimental recognition of this kind of proteins is a very time consuming process, so attempts to use artificial intelligence methods to achieve this goal are more and more frequent. This thesis' topic is prediction of proteins' disordered regions using artificial neural networks. The main goal of this project was to introduce a new approach to aminoacids' sequences analysis with the usage of LSTM artificial neural networks and natural language processing methods. Every aminoacids' threesome was treated as a word, and then converted to 100dimension space using Word Embedding method. Those vectors were taken as input data for developed neural network. Standard training and validation of prediction was provided, as well as parameters' optimization based on grid search method. Received results were compared with another algorithm for predicting disordered regions in proteins. Implemented model achieved over 80% prediction's accuracy which is worse than SPOT - Disorder method. Approach that was introduced here, can be extended and improved, so that accuracy can be even higher. The main difference between this solution and others, is the fact that, NLP methods were used to analyzing proteins.

dc.abstract.en	Nowadays, proteins with disordered regions are popular research objects for many scientists. Experimental recognition of this kind of proteins is a very time consuming process, so attempts to use artificial intelligence methods to achieve this goal are more and more frequent. This thesis' topic is prediction of proteins' disordered regions using artificial neural networks. The main goal of this project was to introduce a new approach to aminoacids' sequences analysis with the usage of LSTM artificial neural networks and natural language processing methods. Every aminoacids' threesome was treated as a word, and then converted to 100dimension space using Word Embedding method. Those vectors were taken as input data for developed neural network. Standard training and validation of prediction was provided, as well as parameters' optimization based on grid search method. Received results were compared with another algorithm for predicting disordered regions in proteins. Implemented model achieved over 80% prediction's accuracy which is worse than SPOT - Disorder method. Approach that was introduced here, can be extended and improved, so that accuracy can be even higher. The main difference between this solution and others, is the fact that, NLP methods were used to analyzing proteins.	pl
dc.abstract.pl	Białka zawierające rejony nieuporządkowane są obecnie popularnym obiektem badań wielu naukowców. Eksperymentalne poznanie wszystkich protein tego typu jest procesem bardzo czasochłonnym, dlatego coraz częściej podejmowane są próby wykorzystania w tym celu metod sztucznej inteligencji. Tematem niniejszej pracy jest zastosowanie sztucznych sieci neuronowych do przewidywania rejonów nieuporządkowanych w białkach. Celem tego projektu było głównie wprowadzenie nowego podejścia do analizowania sekwencji aminokwasowych z użyciem zarówno sztucznej sieci neuronowej typu LSTM, jak i metod przetwarzania języka naturalnego. Każda trójka aminokwasów w białku została potraktowana jak słowo, a następnie przedstawiona w przestrzeni 100-wymiarowej zgodnie z założeniami metody Word Embedding. Wektory te stały się danymi wejściowymi dla zaprojektowanej sieci neuronowej. Dokonano standardowych operacji trenowania oraz walidacji skuteczności przewidywania sieci, a także optymalizacji parametrów metodą grid search. Otrzymane wyniki zostały porównane z inną dostępną metodą do przewidywania rejonów nieuporządkowanych w białkach. Zaimplementowany model osiągnął ponad 80% skuteczności przewidywania, co jest wartością gorszą niż algorytm SPOT - Disorder. Podejście, które zostało zastosowanie w niniejszej pracy może zostać rozbudowane, dzięki czemu uzyskiwana skuteczność predykcji może wzrosnąć. Tym, co zdecydowanie odróżnia niniejszy projekt od innych jest wprowadzenie metod przetwarzania języka naturalnego do analizy białek.	pl
dc.affiliation	Wydział Biochemii, Biofizyki i Biotechnologii	pl
dc.area	obszar nauk ścisłych	pl
dc.area	obszar nauk przyrodniczych	pl
dc.contributor.advisor	Markiewicz, Michał - 160663	pl
dc.contributor.author	Garbacz, Karolina	pl
dc.contributor.departmentbycode	UJK/WBBB	pl
dc.contributor.reviewer	Pasenkiewicz-Gierula, Marta - 131288	pl
dc.contributor.reviewer	Markiewicz, Michał - 160663	pl
dc.date.accessioned	2020-07-27T17:28:46Z
dc.date.available	2020-07-27T17:28:46Z
dc.date.submitted	2019-06-26	pl
dc.fieldofstudy	bioinformatyka z biofizyką stosowaną	pl
dc.identifier.apd	diploma-124855-231817	pl
dc.identifier.project	APD / O	pl
dc.identifier.uri	https://ruj.uj.edu.pl/xmlui/handle/item/229117
dc.language	pol	pl
dc.subject.en	artificial neural networks, disordered proteins, LSTM, NLP, Word Embedding	pl
dc.subject.pl	sztuczne sieci neuronowe, białka nieuporządkowane, LSTM, przetwarzanie języka naturalnego, Word Embedding	pl
dc.title	Zastosowanie sztucznych sieci neuronowych do przewidywania rejonów nieuporządkowanych w białkach	pl
dc.title.alternative	Prediction of proteins' disordered regions using artificial neural networks	pl
dc.type	master	pl
dspace.entity.type	Publication

dc.abstract.enpl

Nowadays, proteins with disordered regions are popular research objects for many scientists. Experimental recognition of this kind of proteins is a very time consuming process, so attempts to use artificial intelligence methods to achieve this goal are more and more frequent. This thesis' topic is prediction of proteins' disordered regions using artificial neural networks. The main goal of this project was to introduce a new approach to aminoacids' sequences analysis with the usage of LSTM artificial neural networks and natural language processing methods. Every aminoacids' threesome was treated as a word, and then converted to 100dimension space using Word Embedding method. Those vectors were taken as input data for developed neural network. Standard training and validation of prediction was provided, as well as parameters' optimization based on grid search method. Received results were compared with another algorithm for predicting disordered regions in proteins. Implemented model achieved over 80% prediction's accuracy which is worse than SPOT - Disorder method. Approach that was introduced here, can be extended and improved, so that accuracy can be even higher. The main difference between this solution and others, is the fact that, NLP methods were used to analyzing proteins.

dc.abstract.plpl

Białka zawierające rejony nieuporządkowane są obecnie popularnym obiektem badań wielu naukowców. Eksperymentalne poznanie wszystkich protein tego typu jest procesem bardzo czasochłonnym, dlatego coraz częściej podejmowane są próby wykorzystania w tym celu metod sztucznej inteligencji. Tematem niniejszej pracy jest zastosowanie sztucznych sieci neuronowych do przewidywania rejonów nieuporządkowanych w białkach. Celem tego projektu było głównie wprowadzenie nowego podejścia do analizowania sekwencji aminokwasowych z użyciem zarówno sztucznej sieci neuronowej typu LSTM, jak i metod przetwarzania języka naturalnego. Każda trójka aminokwasów w białku została potraktowana jak słowo, a następnie przedstawiona w przestrzeni 100-wymiarowej zgodnie z założeniami metody Word Embedding. Wektory te stały się danymi wejściowymi dla zaprojektowanej sieci neuronowej. Dokonano standardowych operacji trenowania oraz walidacji skuteczności przewidywania sieci, a także optymalizacji parametrów metodą grid search. Otrzymane wyniki zostały porównane z inną dostępną metodą do przewidywania rejonów nieuporządkowanych w białkach. Zaimplementowany model osiągnął ponad 80% skuteczności przewidywania, co jest wartością gorszą niż algorytm SPOT - Disorder. Podejście, które zostało zastosowanie w niniejszej pracy może zostać rozbudowane, dzięki czemu uzyskiwana skuteczność predykcji może wzrosnąć. Tym, co zdecydowanie odróżnia niniejszy projekt od innych jest wprowadzenie metod przetwarzania języka naturalnego do analizy białek.

dc.affiliationpl

Wydział Biochemii, Biofizyki i Biotechnologii

dc.areapl

obszar nauk ścisłych

dc.areapl

obszar nauk przyrodniczych

dc.contributor.advisorpl

Markiewicz, Michał - 160663

dc.contributor.authorpl

Garbacz, Karolina

dc.contributor.departmentbycodepl

UJK/WBBB

dc.contributor.reviewerpl

Pasenkiewicz-Gierula, Marta - 131288

dc.contributor.reviewerpl

Markiewicz, Michał - 160663

dc.date.accessioned

2020-07-27T17:28:46Z

dc.date.available

2020-07-27T17:28:46Z

dc.date.submittedpl

2019-06-26

dc.fieldofstudypl

bioinformatyka z biofizyką stosowaną

dc.identifier.apdpl

diploma-124855-231817

dc.identifier.projectpl

APD / O

dc.identifier.uri

https://ruj.uj.edu.pl/xmlui/handle/item/229117

dc.languagepl

pol

dc.subject.enpl

artificial neural networks, disordered proteins, LSTM, NLP, Word Embedding

dc.subject.plpl

sztuczne sieci neuronowe, białka nieuporządkowane, LSTM, przetwarzanie języka naturalnego, Word Embedding

dc.titlepl

Zastosowanie sztucznych sieci neuronowych do przewidywania rejonów nieuporządkowanych w białkach

dc.title.alternativepl

Prediction of proteins' disordered regions using artificial neural networks

dc.typepl

master

dspace.entity.type

Publication

Affiliations

No affiliation

Garbacz, Karolina

Pasenkiewicz-Gierula, Marta

Markiewicz, Michał

* The migration of download and view statistics prior to the date of April 8, 2024 is in progress.

Views

47 Views per month

Views per city

Warsaw

12

Wroclaw

4

Gdynia

3

Gdansk

2

Katowice

2

Krakow

2

Poznan

2

Rzeszów

2

Sanok

2

Szczecin

2

No access

Collections

Masters theses

ROD UJ