Statistical mechanics of thymic selection

master
dc.abstract.enNegative thymic selection is a key mechanism by which the immune system eliminates T cells that pose a risk of inducing autoimmune diseases, ensuring self-tolerance. In this project, we approach thymic selection from the perspective of statistical mechanics, modeling it as a stochastic filtering process over a synthetic repertoire of T cell receptors (TCRs). Using sequences generated with a previously developed generative model, we assign survival probabilities based on similarity to a fixed set of auto-reactive receptors and simulate selection outcomes via Monte Carlo sampling. This framework enables the study of selection as a probabilistic process guided by tunable parameters that resemble energy thresholds and interaction strengths. We investigate the learnability of this selection landscape using standard classifiers: logistic regression, random forest, and multi-layer perceptrons. The classifiers are trained on two types of encodings: custom one-hot encodings and embeddings obtained from a large protein language model. Performance is evaluated using the AUC score and compared to theoretical limits imposed by the stochastic nature of the model. We find that neural networks can closely approximate the theoretical performance limit set by the model's intrinsic stochasticity, with the predictive accuracy improving when both alpha and beta chain features are available to the classifier. This work provides a quantitative framework for understanding how much information about thymic selection is encoded in TCR sequences.pl
dc.abstract.plNegatywna selekcja w grasicy to kluczowy mechanizm, dzięki któremu układ odpornościowy eliminuje limfocyty T mogące prowadzić do rozwoju chorób autoimmunologicznych, zapewniając tym samym tolerancję własnych antygenów. W niniejszej pracy analizowano selekcję w grasicy z perspektywy mechaniki statystycznej, modelując ją jako stochastyczny proces filtrowania na syntetycznym repertuarze receptorów limfocytów T (TCR). Sekwencje aminokwasów odpowiadające receptorom TCR wygenerowano przy użyciu wcześniej opracowanego modelu generatywnego. Następnie przypisano im prawdopodobieństwa przeżycia selekcji na podstawie podobieństwa do ustalonego zbioru autoreaktywnych receptorów. Ostateczny wynik selekcji symulowano metodą Monte Carlo. Takie podejście pozwoliło traktować selekcję jako proces probabilistyczny, sterowany parametrami przypominającymi progi energetyczne i siły oddziaływań. Możliwość odtworzenia krajobrazu energetycznego negatywnej selekcji zbadano za pomocą standardowych klasyfikatorów statystycznych oraz metod uczenia maszynowego: regresji logistycznej, lasu losowego oraz perceptronów wielowarstwowych. Klasyfikatory zostały wytrenowane na dwóch rodzajach reprezentacji receptorów: kodowaniu typu 1-z-n zaprojektowanemu specjalnie dla receptorów limfocytów T oraz reprezentacjach uzyskanych przy użyciu dużego modelu językowego białek. Dokładność klasyfikatorów oceniono za pomocą miary AUC i porównano z ograniczeniami wynikającymi ze stochastycznej natury modelu. Stwierdzono, że sieci neuronowe potrafią zbliżyć się do teoretycznego limitu dokładności wyznaczanego przez wewnętrzną losowość modelu, a dokładność przewidywań wzrasta, gdy klasyfikator ma dostęp do sekwencji zarówno łańcuchów alfa, jak i beta, wchodzących w skład receptorów limfocytów T. Niniejsza praca dostarcza ilościowych ram do zrozumienia, w jakim stopniu informacje o negatywnej selekcji w grasicy są zakodowane w sekwencjach TCR.pl
dc.affiliationWydział Fizyki, Astronomii i Informatyki Stosowanejpl
dc.contributor.advisorSilarski, Michał - 103624 pl
dc.contributor.authorRasz, Monika - USOS290262 pl
dc.contributor.departmentbycodeUJK/WFAISpl
dc.contributor.reviewerSkurzok, Magdalena - 106557 pl
dc.contributor.reviewerSilarski, Michał - 103624 pl
dc.date.accessioned2025-07-29T22:32:40Z
dc.date.available2025-07-29T22:32:40Z
dc.date.createdat2025-07-29T22:32:40Zen
dc.date.submitted2025-07-25pl
dc.fieldofstudybiofizyka w ramach Studiów Matematyczno-Przyrodniczychpl
dc.identifier.apddiploma-185075-290262pl
dc.identifier.urihttps://ruj.uj.edu.pl/handle/item/558467
dc.languageengpl
dc.subject.enthymic selection, negative selection, T cell, thymus, TCR, T cell receptor, stochastic process, Monte Carlo sampling, AUC, machine learning, protein language model, sequence similarity, immunologypl
dc.subject.plselekcja limfocytów T w grasicy, negatywna selekcja, limfocyt T, grasica, TCR, receptor limfocytu T, proces stochastyczny, próbkowanie metodą Monte Carlo, AUC, uczenie maszynowe, model językowy białek, podobieństwo sekwencji, immunologiapl
dc.titleStatistical mechanics of thymic selectionpl
dc.title.alternativeSelekcja limfocytów T w grasicy w ujęciu mechaniki statystycznejpl
dc.typemasterpl
dspace.entity.typePublication
dc.abstract.enpl
Negative thymic selection is a key mechanism by which the immune system eliminates T cells that pose a risk of inducing autoimmune diseases, ensuring self-tolerance. In this project, we approach thymic selection from the perspective of statistical mechanics, modeling it as a stochastic filtering process over a synthetic repertoire of T cell receptors (TCRs). Using sequences generated with a previously developed generative model, we assign survival probabilities based on similarity to a fixed set of auto-reactive receptors and simulate selection outcomes via Monte Carlo sampling. This framework enables the study of selection as a probabilistic process guided by tunable parameters that resemble energy thresholds and interaction strengths. We investigate the learnability of this selection landscape using standard classifiers: logistic regression, random forest, and multi-layer perceptrons. The classifiers are trained on two types of encodings: custom one-hot encodings and embeddings obtained from a large protein language model. Performance is evaluated using the AUC score and compared to theoretical limits imposed by the stochastic nature of the model. We find that neural networks can closely approximate the theoretical performance limit set by the model's intrinsic stochasticity, with the predictive accuracy improving when both alpha and beta chain features are available to the classifier. This work provides a quantitative framework for understanding how much information about thymic selection is encoded in TCR sequences.
dc.abstract.plpl
Negatywna selekcja w grasicy to kluczowy mechanizm, dzięki któremu układ odpornościowy eliminuje limfocyty T mogące prowadzić do rozwoju chorób autoimmunologicznych, zapewniając tym samym tolerancję własnych antygenów. W niniejszej pracy analizowano selekcję w grasicy z perspektywy mechaniki statystycznej, modelując ją jako stochastyczny proces filtrowania na syntetycznym repertuarze receptorów limfocytów T (TCR). Sekwencje aminokwasów odpowiadające receptorom TCR wygenerowano przy użyciu wcześniej opracowanego modelu generatywnego. Następnie przypisano im prawdopodobieństwa przeżycia selekcji na podstawie podobieństwa do ustalonego zbioru autoreaktywnych receptorów. Ostateczny wynik selekcji symulowano metodą Monte Carlo. Takie podejście pozwoliło traktować selekcję jako proces probabilistyczny, sterowany parametrami przypominającymi progi energetyczne i siły oddziaływań. Możliwość odtworzenia krajobrazu energetycznego negatywnej selekcji zbadano za pomocą standardowych klasyfikatorów statystycznych oraz metod uczenia maszynowego: regresji logistycznej, lasu losowego oraz perceptronów wielowarstwowych. Klasyfikatory zostały wytrenowane na dwóch rodzajach reprezentacji receptorów: kodowaniu typu 1-z-n zaprojektowanemu specjalnie dla receptorów limfocytów T oraz reprezentacjach uzyskanych przy użyciu dużego modelu językowego białek. Dokładność klasyfikatorów oceniono za pomocą miary AUC i porównano z ograniczeniami wynikającymi ze stochastycznej natury modelu. Stwierdzono, że sieci neuronowe potrafią zbliżyć się do teoretycznego limitu dokładności wyznaczanego przez wewnętrzną losowość modelu, a dokładność przewidywań wzrasta, gdy klasyfikator ma dostęp do sekwencji zarówno łańcuchów alfa, jak i beta, wchodzących w skład receptorów limfocytów T. Niniejsza praca dostarcza ilościowych ram do zrozumienia, w jakim stopniu informacje o negatywnej selekcji w grasicy są zakodowane w sekwencjach TCR.
dc.affiliationpl
Wydział Fizyki, Astronomii i Informatyki Stosowanej
dc.contributor.advisorpl
Silarski, Michał - 103624
dc.contributor.authorpl
Rasz, Monika - USOS290262
dc.contributor.departmentbycodepl
UJK/WFAIS
dc.contributor.reviewerpl
Skurzok, Magdalena - 106557
dc.contributor.reviewerpl
Silarski, Michał - 103624
dc.date.accessioned
2025-07-29T22:32:40Z
dc.date.available
2025-07-29T22:32:40Z
dc.date.createdaten
2025-07-29T22:32:40Z
dc.date.submittedpl
2025-07-25
dc.fieldofstudypl
biofizyka w ramach Studiów Matematyczno-Przyrodniczych
dc.identifier.apdpl
diploma-185075-290262
dc.identifier.uri
https://ruj.uj.edu.pl/handle/item/558467
dc.languagepl
eng
dc.subject.enpl
thymic selection, negative selection, T cell, thymus, TCR, T cell receptor, stochastic process, Monte Carlo sampling, AUC, machine learning, protein language model, sequence similarity, immunology
dc.subject.plpl
selekcja limfocytów T w grasicy, negatywna selekcja, limfocyt T, grasica, TCR, receptor limfocytu T, proces stochastyczny, próbkowanie metodą Monte Carlo, AUC, uczenie maszynowe, model językowy białek, podobieństwo sekwencji, immunologia
dc.titlepl
Statistical mechanics of thymic selection
dc.title.alternativepl
Selekcja limfocytów T w grasicy w ujęciu mechaniki statystycznej
dc.typepl
master
dspace.entity.type
Publication
Affiliations

* The migration of download and view statistics prior to the date of April 8, 2024 is in progress.

Views
1
Views per month
Views per city
Krakow
1

No access

No Thumbnail Available
Collections