Text classification using the semi-supervised methods

master
dc.abstract.enThe work is devoted to the issue of semi-supervised learning forthe tasks of text classification. One of the aims is to test the semi-supervisedlearning algorithm called FixMatch in the NLP domain.This method is considered to be state-of-the-art for problems of imageclassification with a few training labeled examples. In order to testFixMatch for text classification, it is necessary to create realisticaugmentations, which will be proposed in the following work. Inorder to evaluate the FixMatch properly, two other popular SSLmethods (VAT, Pseudo-Label) and supervised model, will be trainedas comparative baselines. Another goal of this work is to check howthe result on the test set are affected by training process and selectionof hyperparameters using different ratio of the training and validationset sizes. The last goal will be to examine the quality of the chosenhyperparameters on small validation sets, also by checking the resultsof the SLL methods which were trained on more labelled and unlabeleddata.Results of the conducted experiments for the FixMatch algorithmindicate, that with chosen experimental settings it was not possibleto transfer state-of-the-art scores from the computer vision domaininto the NLP domain. It can be hypothesized that the number ofvalidation data samples and/or the duration of training was too low.After observing some of the experiments results with different SSLmethods, a conclusion appears, that the number of examples in thevalidation set should be slightly less or equal to the number of examplesin the training set. For tested SSL methods, the error on the test setis decreasing with training on an additional number of labeled data,while in the case of unlabeled data, there is no such relation.pl
dc.abstract.plPraca poświęcona jest zagadnieniu uczenia częściowo nadzorowanego dlazadania związanego z klasyfikacją tekstów. Jednym z celów pracy jest przetestowanie częściowo nadzorowanego algorytmu FixMatch w domenie przetwarzania języka naturalnego.Przytoczony algorytm daje najlepsze wyniki w przypadku zadania związanego z klasyfikacją obrazów, wykorzystując jedyniekilka oetykietowanych przykładów. W celu sprawdzeniaFixMatch'a dla problemu klasyfikacji tekstu, konieczne jest stworzenie realistycznychmetod rozszerzenia zbioru danych uczących, które zostaną zaproponowane w poniższej pracy. W celu prawidłowej oceny algorytmu FixMatch, dwie inne popularne metody uczenia częsciowo nadzorowanego (VAT, Pseudo-Label) oraz model nadzorowany, zostaną wytrenowane jako punkty odniesienia dla otrzymanych wyników. Kolejnym celem tej pracy jest sprawdzenie, jakna wynik zestawu testowego wpływa proces szkolenia i selekcjihiperparametrów stosując różne proporcje rozmiaru danych treningowych i walidacyjnych. Ostatnim celem będzie sprawdzenie tego jak hiperparametry dobrane na małych zestawach walidacyjnych, skalują się dla większej liczby danych oetykietowanych i nieoetykietowanych.Wyniki przeprowadzonych eksperymentów dla algorytmu FixMatchwskazują, że przy wybranych wartościach hiperparametrów nie udało się powtórzyć sukcesu metody z dziedziny wizji komputerowej w domenie NLP. Można postawić hipotezę, że liczbadanych uczących oraz walidacyjnych i/lub czas trwania treningu był zbyt krótki.Po zapoznaniu się z niektórymi wynikami doświadczeń z różnymi metodami czesciowo nadzorowanymi, pojawia się wniosek, że liczba przykładów wzestawie walidacyjnym powinna być nieco mniejsza lub równa liczbie przykładóww zestawie treningowym. W przypadku testowanych metod częsciowo nadzorowanych, błąd w zestawie testowymzmniejsza się wraz z trenowaniem na dodatkowej liczbie danych oetykietowanych,podczas gdy w przypadku danych nieoetykietowanych, nie ma takiej relacji.pl
dc.affiliationWydział Matematyki i Informatykipl
dc.areaobszar nauk ścisłychpl
dc.contributor.advisorŚmieja, Marekpl
dc.contributor.authorFilek, Michałpl
dc.contributor.departmentbycodeUJK/WMI2pl
dc.contributor.reviewerŚmieja, Marekpl
dc.contributor.reviewerPodolak, Igor - 100165 pl
dc.date.accessioned2020-10-25T23:05:40Z
dc.date.available2020-10-25T23:05:40Z
dc.date.submitted2020-10-20pl
dc.fieldofstudynauczanie maszynowepl
dc.identifier.apddiploma-141238-264067pl
dc.identifier.projectAPD / Opl
dc.identifier.urihttps://ruj.uj.edu.pl/xmlui/handle/item/251219
dc.languageengpl
dc.subject.enmachine learning, ml, nlp, ssl, semi-supervised learning, text classification, fixmatch, vat, pseudo-label, bert, word2vec, fasttext, nplm, n-grampl
dc.subject.pluczenie maszynowe, ml, przetwarzanie języka naturalnego, uczenie częsciowo nadzorowane, klasyfikacja tekstu, fixmatch, vat, pseudo-label, bert, word2vec, fasttext, modele językowe, n-grampl
dc.titleText classification using the semi-supervised methodspl
dc.title.alternativeKlasyfikacja tekstu przy użyciu metod częściowo nadzorowanychpl
dc.typemasterpl
dspace.entity.typePublication
dc.abstract.enpl
The work is devoted to the issue of semi-supervised learning forthe tasks of text classification. One of the aims is to test the semi-supervisedlearning algorithm called FixMatch in the NLP domain.This method is considered to be state-of-the-art for problems of imageclassification with a few training labeled examples. In order to testFixMatch for text classification, it is necessary to create realisticaugmentations, which will be proposed in the following work. Inorder to evaluate the FixMatch properly, two other popular SSLmethods (VAT, Pseudo-Label) and supervised model, will be trainedas comparative baselines. Another goal of this work is to check howthe result on the test set are affected by training process and selectionof hyperparameters using different ratio of the training and validationset sizes. The last goal will be to examine the quality of the chosenhyperparameters on small validation sets, also by checking the resultsof the SLL methods which were trained on more labelled and unlabeleddata.Results of the conducted experiments for the FixMatch algorithmindicate, that with chosen experimental settings it was not possibleto transfer state-of-the-art scores from the computer vision domaininto the NLP domain. It can be hypothesized that the number ofvalidation data samples and/or the duration of training was too low.After observing some of the experiments results with different SSLmethods, a conclusion appears, that the number of examples in thevalidation set should be slightly less or equal to the number of examplesin the training set. For tested SSL methods, the error on the test setis decreasing with training on an additional number of labeled data,while in the case of unlabeled data, there is no such relation.
dc.abstract.plpl
Praca poświęcona jest zagadnieniu uczenia częściowo nadzorowanego dlazadania związanego z klasyfikacją tekstów. Jednym z celów pracy jest przetestowanie częściowo nadzorowanego algorytmu FixMatch w domenie przetwarzania języka naturalnego.Przytoczony algorytm daje najlepsze wyniki w przypadku zadania związanego z klasyfikacją obrazów, wykorzystując jedyniekilka oetykietowanych przykładów. W celu sprawdzeniaFixMatch'a dla problemu klasyfikacji tekstu, konieczne jest stworzenie realistycznychmetod rozszerzenia zbioru danych uczących, które zostaną zaproponowane w poniższej pracy. W celu prawidłowej oceny algorytmu FixMatch, dwie inne popularne metody uczenia częsciowo nadzorowanego (VAT, Pseudo-Label) oraz model nadzorowany, zostaną wytrenowane jako punkty odniesienia dla otrzymanych wyników. Kolejnym celem tej pracy jest sprawdzenie, jakna wynik zestawu testowego wpływa proces szkolenia i selekcjihiperparametrów stosując różne proporcje rozmiaru danych treningowych i walidacyjnych. Ostatnim celem będzie sprawdzenie tego jak hiperparametry dobrane na małych zestawach walidacyjnych, skalują się dla większej liczby danych oetykietowanych i nieoetykietowanych.Wyniki przeprowadzonych eksperymentów dla algorytmu FixMatchwskazują, że przy wybranych wartościach hiperparametrów nie udało się powtórzyć sukcesu metody z dziedziny wizji komputerowej w domenie NLP. Można postawić hipotezę, że liczbadanych uczących oraz walidacyjnych i/lub czas trwania treningu był zbyt krótki.Po zapoznaniu się z niektórymi wynikami doświadczeń z różnymi metodami czesciowo nadzorowanymi, pojawia się wniosek, że liczba przykładów wzestawie walidacyjnym powinna być nieco mniejsza lub równa liczbie przykładóww zestawie treningowym. W przypadku testowanych metod częsciowo nadzorowanych, błąd w zestawie testowymzmniejsza się wraz z trenowaniem na dodatkowej liczbie danych oetykietowanych,podczas gdy w przypadku danych nieoetykietowanych, nie ma takiej relacji.
dc.affiliationpl
Wydział Matematyki i Informatyki
dc.areapl
obszar nauk ścisłych
dc.contributor.advisorpl
Śmieja, Marek
dc.contributor.authorpl
Filek, Michał
dc.contributor.departmentbycodepl
UJK/WMI2
dc.contributor.reviewerpl
Śmieja, Marek
dc.contributor.reviewerpl
Podolak, Igor - 100165
dc.date.accessioned
2020-10-25T23:05:40Z
dc.date.available
2020-10-25T23:05:40Z
dc.date.submittedpl
2020-10-20
dc.fieldofstudypl
nauczanie maszynowe
dc.identifier.apdpl
diploma-141238-264067
dc.identifier.projectpl
APD / O
dc.identifier.uri
https://ruj.uj.edu.pl/xmlui/handle/item/251219
dc.languagepl
eng
dc.subject.enpl
machine learning, ml, nlp, ssl, semi-supervised learning, text classification, fixmatch, vat, pseudo-label, bert, word2vec, fasttext, nplm, n-gram
dc.subject.plpl
uczenie maszynowe, ml, przetwarzanie języka naturalnego, uczenie częsciowo nadzorowane, klasyfikacja tekstu, fixmatch, vat, pseudo-label, bert, word2vec, fasttext, modele językowe, n-gram
dc.titlepl
Text classification using the semi-supervised methods
dc.title.alternativepl
Klasyfikacja tekstu przy użyciu metod częściowo nadzorowanych
dc.typepl
master
dspace.entity.type
Publication
Affiliations

* The migration of download and view statistics prior to the date of April 8, 2024 is in progress.

Views
28
Views per month
Views per city
Warsaw
6
Colorado Springs
4
Wroclaw
3
Dublin
2
Poznan
2
Beijing
1
Brzeg
1
Central
1
Gdansk
1
Konin
1

No access

No Thumbnail Available