Simple view
Full metadata view
Authors
Statistics
Statistical mechanics of thymic selection
Selekcja limfocytów T w grasicy w ujęciu mechaniki statystycznej
selekcja limfocytów T w grasicy, negatywna selekcja, limfocyt T, grasica, TCR, receptor limfocytu T, proces stochastyczny, próbkowanie metodą Monte Carlo, AUC, uczenie maszynowe, model językowy białek, podobieństwo sekwencji, immunologia
thymic selection, negative selection, T cell, thymus, TCR, T cell receptor, stochastic process, Monte Carlo sampling, AUC, machine learning, protein language model, sequence similarity, immunology
Negatywna selekcja w grasicy to kluczowy mechanizm, dzięki któremu układ odpornościowy eliminuje limfocyty T mogące prowadzić do rozwoju chorób autoimmunologicznych, zapewniając tym samym tolerancję własnych antygenów. W niniejszej pracy analizowano selekcję w grasicy z perspektywy mechaniki statystycznej, modelując ją jako stochastyczny proces filtrowania na syntetycznym repertuarze receptorów limfocytów T (TCR). Sekwencje aminokwasów odpowiadające receptorom TCR wygenerowano przy użyciu wcześniej opracowanego modelu generatywnego. Następnie przypisano im prawdopodobieństwa przeżycia selekcji na podstawie podobieństwa do ustalonego zbioru autoreaktywnych receptorów. Ostateczny wynik selekcji symulowano metodą Monte Carlo. Takie podejście pozwoliło traktować selekcję jako proces probabilistyczny, sterowany parametrami przypominającymi progi energetyczne i siły oddziaływań. Możliwość odtworzenia krajobrazu energetycznego negatywnej selekcji zbadano za pomocą standardowych klasyfikatorów statystycznych oraz metod uczenia maszynowego: regresji logistycznej, lasu losowego oraz perceptronów wielowarstwowych. Klasyfikatory zostały wytrenowane na dwóch rodzajach reprezentacji receptorów: kodowaniu typu 1-z-n zaprojektowanemu specjalnie dla receptorów limfocytów T oraz reprezentacjach uzyskanych przy użyciu dużego modelu językowego białek. Dokładność klasyfikatorów oceniono za pomocą miary AUC i porównano z ograniczeniami wynikającymi ze stochastycznej natury modelu. Stwierdzono, że sieci neuronowe potrafią zbliżyć się do teoretycznego limitu dokładności wyznaczanego przez wewnętrzną losowość modelu, a dokładność przewidywań wzrasta, gdy klasyfikator ma dostęp do sekwencji zarówno łańcuchów alfa, jak i beta, wchodzących w skład receptorów limfocytów T. Niniejsza praca dostarcza ilościowych ram do zrozumienia, w jakim stopniu informacje o negatywnej selekcji w grasicy są zakodowane w sekwencjach TCR.
Negative thymic selection is a key mechanism by which the immune system eliminates T cells that pose a risk of inducing autoimmune diseases, ensuring self-tolerance. In this project, we approach thymic selection from the perspective of statistical mechanics, modeling it as a stochastic filtering process over a synthetic repertoire of T cell receptors (TCRs). Using sequences generated with a previously developed generative model, we assign survival probabilities based on similarity to a fixed set of auto-reactive receptors and simulate selection outcomes via Monte Carlo sampling. This framework enables the study of selection as a probabilistic process guided by tunable parameters that resemble energy thresholds and interaction strengths. We investigate the learnability of this selection landscape using standard classifiers: logistic regression, random forest, and multi-layer perceptrons. The classifiers are trained on two types of encodings: custom one-hot encodings and embeddings obtained from a large protein language model. Performance is evaluated using the AUC score and compared to theoretical limits imposed by the stochastic nature of the model. We find that neural networks can closely approximate the theoretical performance limit set by the model's intrinsic stochasticity, with the predictive accuracy improving when both alpha and beta chain features are available to the classifier. This work provides a quantitative framework for understanding how much information about thymic selection is encoded in TCR sequences.
dc.abstract.en | Negative thymic selection is a key mechanism by which the immune system eliminates T cells that pose a risk of inducing autoimmune diseases, ensuring self-tolerance. In this project, we approach thymic selection from the perspective of statistical mechanics, modeling it as a stochastic filtering process over a synthetic repertoire of T cell receptors (TCRs). Using sequences generated with a previously developed generative model, we assign survival probabilities based on similarity to a fixed set of auto-reactive receptors and simulate selection outcomes via Monte Carlo sampling. This framework enables the study of selection as a probabilistic process guided by tunable parameters that resemble energy thresholds and interaction strengths. We investigate the learnability of this selection landscape using standard classifiers: logistic regression, random forest, and multi-layer perceptrons. The classifiers are trained on two types of encodings: custom one-hot encodings and embeddings obtained from a large protein language model. Performance is evaluated using the AUC score and compared to theoretical limits imposed by the stochastic nature of the model. We find that neural networks can closely approximate the theoretical performance limit set by the model's intrinsic stochasticity, with the predictive accuracy improving when both alpha and beta chain features are available to the classifier. This work provides a quantitative framework for understanding how much information about thymic selection is encoded in TCR sequences. | pl |
dc.abstract.pl | Negatywna selekcja w grasicy to kluczowy mechanizm, dzięki któremu układ odpornościowy eliminuje limfocyty T mogące prowadzić do rozwoju chorób autoimmunologicznych, zapewniając tym samym tolerancję własnych antygenów. W niniejszej pracy analizowano selekcję w grasicy z perspektywy mechaniki statystycznej, modelując ją jako stochastyczny proces filtrowania na syntetycznym repertuarze receptorów limfocytów T (TCR). Sekwencje aminokwasów odpowiadające receptorom TCR wygenerowano przy użyciu wcześniej opracowanego modelu generatywnego. Następnie przypisano im prawdopodobieństwa przeżycia selekcji na podstawie podobieństwa do ustalonego zbioru autoreaktywnych receptorów. Ostateczny wynik selekcji symulowano metodą Monte Carlo. Takie podejście pozwoliło traktować selekcję jako proces probabilistyczny, sterowany parametrami przypominającymi progi energetyczne i siły oddziaływań. Możliwość odtworzenia krajobrazu energetycznego negatywnej selekcji zbadano za pomocą standardowych klasyfikatorów statystycznych oraz metod uczenia maszynowego: regresji logistycznej, lasu losowego oraz perceptronów wielowarstwowych. Klasyfikatory zostały wytrenowane na dwóch rodzajach reprezentacji receptorów: kodowaniu typu 1-z-n zaprojektowanemu specjalnie dla receptorów limfocytów T oraz reprezentacjach uzyskanych przy użyciu dużego modelu językowego białek. Dokładność klasyfikatorów oceniono za pomocą miary AUC i porównano z ograniczeniami wynikającymi ze stochastycznej natury modelu. Stwierdzono, że sieci neuronowe potrafią zbliżyć się do teoretycznego limitu dokładności wyznaczanego przez wewnętrzną losowość modelu, a dokładność przewidywań wzrasta, gdy klasyfikator ma dostęp do sekwencji zarówno łańcuchów alfa, jak i beta, wchodzących w skład receptorów limfocytów T. Niniejsza praca dostarcza ilościowych ram do zrozumienia, w jakim stopniu informacje o negatywnej selekcji w grasicy są zakodowane w sekwencjach TCR. | pl |
dc.affiliation | Wydział Fizyki, Astronomii i Informatyki Stosowanej | pl |
dc.contributor.advisor | Silarski, Michał - 103624 | pl |
dc.contributor.author | Rasz, Monika - USOS290262 | pl |
dc.contributor.departmentbycode | UJK/WFAIS | pl |
dc.contributor.reviewer | Skurzok, Magdalena - 106557 | pl |
dc.contributor.reviewer | Silarski, Michał - 103624 | pl |
dc.date.accessioned | 2025-07-29T22:32:40Z | |
dc.date.available | 2025-07-29T22:32:40Z | |
dc.date.createdat | 2025-07-29T22:32:40Z | en |
dc.date.submitted | 2025-07-25 | pl |
dc.fieldofstudy | biofizyka w ramach Studiów Matematyczno-Przyrodniczych | pl |
dc.identifier.apd | diploma-185075-290262 | pl |
dc.identifier.uri | https://ruj.uj.edu.pl/handle/item/558467 | |
dc.language | eng | pl |
dc.subject.en | thymic selection, negative selection, T cell, thymus, TCR, T cell receptor, stochastic process, Monte Carlo sampling, AUC, machine learning, protein language model, sequence similarity, immunology | pl |
dc.subject.pl | selekcja limfocytów T w grasicy, negatywna selekcja, limfocyt T, grasica, TCR, receptor limfocytu T, proces stochastyczny, próbkowanie metodą Monte Carlo, AUC, uczenie maszynowe, model językowy białek, podobieństwo sekwencji, immunologia | pl |
dc.title | Statistical mechanics of thymic selection | pl |
dc.title.alternative | Selekcja limfocytów T w grasicy w ujęciu mechaniki statystycznej | pl |
dc.type | master | pl |
dspace.entity.type | Publication |