Simple view
Full metadata view
Authors
Statistics
Analiza właściwości aminokwasów w regionach centrów aktywnych białek
Analysis of the properties of amino acids in the regions of active centers of proteins
właściwości aminokwasowe, krótkie motywy konserwatywne, baza AAindex, baza PROSITE, klasteryzacja, analiza skupień, algorytm k-średnich, macierz substytucji, indeks aminokwasowy, język programowania Python, współczynnik korelacji, rodziny białek, parametr preferencji, centra aktywne białek, hydrofobowość, normalizacja danych
amino acid properties, short conservative motifs, AAindex database, PROSITE database, clustering, principal component analysis, k-means algorithm, substitution matrix, amino acid index, Python programming language, correlation coefficient, protein families, preference parameter, protein active centers, hydrophobicity, data normalization
Oprócz najbardziej znanych i kojarzonych z literatury naukowej właściwości aminokwasów jakimi są np. rozpuszczalność w wodzie, pH aminokwasu czy masa molekularna istnieje duża ilość cech fizykochemicznych, na temat których jest niewielka liczba publikacji, a które mogą wpływać w sposób kluczowy na funkcje białek w ich aktywnych regionach. Pełną listę znanych właściwości aminokwasów znajdziemy w bazie AAindex. Dopasowanie wielu sekwencji (ang. msa – multiple sequence alignment) w centrach aktywnych białek pozwala określić stopień konserwatywności występujących tam aminokwasów a następnie wyznaczyć charakterystyczny motyw dla rodziny białek. Zestaw tych dopasowań oraz motywy odnajdziemy w bazie PROSITE. W przedstawionej pracy wykorzystano zasoby ze wymienionych już baz: AAindex oraz PROSITE po to, aby przeanalizować właściwości fizykochemiczne aminokwasów w centrach aktywnych białek. Analiza ta obejmuje: grupowanie właściwości fizykochemicznych wg. współczynnika korelacji Pearsona, ocenę konserwatywności tych właściwości w MSA dla rodzin PROSITE selekcja maksymalnych wartości właściwości w kolumnach MSA, klasteryzację uzyskanych wyników – analiza składowych głównych PCA oraz grupowanie – k-means. Ostateczne rezultaty zostały zaprezentowane na serii diagramów. Analiza wykazała, że istnieją rodziny właściwości, które znacznie przeważają pod względem preferencji występowania w miejscach aktywnych białek. Udało się także przedstawić relację pomiędzy indeksami aminokwasowymi a charakterystycznymi cechami sekwencji miejsc aktywnych jak ich długość czy liczba przerw w sekwencji.
Apart from the most known and associated with the scientific literature properties of amino acids (such as, for example, water solubility, amino acid pH or molecular weight), there is a large number of physicochemical properties of amino acids about which there is a small number of publications, and which may have a key impact on functions of proteins and their active regions. The use of the multiple sequence alignment (MSA) approach allowed the determination of a high degree of conservation among a representative number of amino acid sequences of the active sites of enzymes. In the work presented here, resources from the AAindex database and the PROSITE database were used in order to group more physicochemical properties of amino acids and subject the results to the collected match set to be clustered and to determine preferences in the centers of active proteins. The final results are presented in a series of diagrams included in the paper. To optimize the script's operation on a larger amount of data, an iterative algorithm was created that initially groups and filters amino acid properties. The analysis showed that there are families of properties that greatly predominate in terms of protein active site preference. It was also possible to present the relationship between the amino acid indices and the characteristic features of the active site sequence, such as their length or the number of sequence gaps.
dc.abstract.en | Apart from the most known and associated with the scientific literature properties of amino acids (such as, for example, water solubility, amino acid pH or molecular weight), there is a large number of physicochemical properties of amino acids about which there is a small number of publications, and which may have a key impact on functions of proteins and their active regions. The use of the multiple sequence alignment (MSA) approach allowed the determination of a high degree of conservation among a representative number of amino acid sequences of the active sites of enzymes. In the work presented here, resources from the AAindex database and the PROSITE database were used in order to group more physicochemical properties of amino acids and subject the results to the collected match set to be clustered and to determine preferences in the centers of active proteins. The final results are presented in a series of diagrams included in the paper. To optimize the script's operation on a larger amount of data, an iterative algorithm was created that initially groups and filters amino acid properties. The analysis showed that there are families of properties that greatly predominate in terms of protein active site preference. It was also possible to present the relationship between the amino acid indices and the characteristic features of the active site sequence, such as their length or the number of sequence gaps. | pl |
dc.abstract.pl | Oprócz najbardziej znanych i kojarzonych z literatury naukowej właściwości aminokwasów jakimi są np. rozpuszczalność w wodzie, pH aminokwasu czy masa molekularna istnieje duża ilość cech fizykochemicznych, na temat których jest niewielka liczba publikacji, a które mogą wpływać w sposób kluczowy na funkcje białek w ich aktywnych regionach. Pełną listę znanych właściwości aminokwasów znajdziemy w bazie AAindex. Dopasowanie wielu sekwencji (ang. msa – multiple sequence alignment) w centrach aktywnych białek pozwala określić stopień konserwatywności występujących tam aminokwasów a następnie wyznaczyć charakterystyczny motyw dla rodziny białek. Zestaw tych dopasowań oraz motywy odnajdziemy w bazie PROSITE. W przedstawionej pracy wykorzystano zasoby ze wymienionych już baz: AAindex oraz PROSITE po to, aby przeanalizować właściwości fizykochemiczne aminokwasów w centrach aktywnych białek. Analiza ta obejmuje: grupowanie właściwości fizykochemicznych wg. współczynnika korelacji Pearsona, ocenę konserwatywności tych właściwości w MSA dla rodzin PROSITE selekcja maksymalnych wartości właściwości w kolumnach MSA, klasteryzację uzyskanych wyników – analiza składowych głównych PCA oraz grupowanie – k-means. Ostateczne rezultaty zostały zaprezentowane na serii diagramów. Analiza wykazała, że istnieją rodziny właściwości, które znacznie przeważają pod względem preferencji występowania w miejscach aktywnych białek. Udało się także przedstawić relację pomiędzy indeksami aminokwasowymi a charakterystycznymi cechami sekwencji miejsc aktywnych jak ich długość czy liczba przerw w sekwencji. | pl |
dc.affiliation | Uniwersytet Jagielloński w Krakowie | pl |
dc.contributor.advisor | Sarapata, Krzysztof - 133360 | pl |
dc.contributor.author | Nęcki, Maks | pl |
dc.contributor.departmentbycode | UJK/UJK | pl |
dc.contributor.reviewer | Wójcik-Augustyn, Anna | pl |
dc.contributor.reviewer | Sarapata, Krzysztof - 133360 | pl |
dc.date.accessioned | 2022-07-08T22:16:05Z | |
dc.date.available | 2022-07-08T22:16:05Z | |
dc.date.submitted | 2022-07-07 | pl |
dc.fieldofstudy | bioinformatyka | pl |
dc.identifier.apd | diploma-160316-259116 | pl |
dc.identifier.uri | https://ruj.uj.edu.pl/xmlui/handle/item/295817 | |
dc.language | pol | pl |
dc.subject.en | amino acid properties, short conservative motifs, AAindex database, PROSITE database, clustering, principal component analysis, k-means algorithm, substitution matrix, amino acid index, Python programming language, correlation coefficient, protein families, preference parameter, protein active centers, hydrophobicity, data normalization | pl |
dc.subject.pl | właściwości aminokwasowe, krótkie motywy konserwatywne, baza AAindex, baza PROSITE, klasteryzacja, analiza skupień, algorytm k-średnich, macierz substytucji, indeks aminokwasowy, język programowania Python, współczynnik korelacji, rodziny białek, parametr preferencji, centra aktywne białek, hydrofobowość, normalizacja danych | pl |
dc.title | Analiza właściwości aminokwasów w regionach centrów aktywnych białek | pl |
dc.title.alternative | Analysis of the properties of amino acids in the regions of active centers of proteins | pl |
dc.type | licenciate | pl |
dspace.entity.type | Publication |