Simple view
Full metadata view
Authors
Statistics
Text classification using the semi-supervised methods
Klasyfikacja tekstu przy użyciu metod częściowo nadzorowanych
uczenie maszynowe, ml, przetwarzanie języka naturalnego, uczenie częsciowo nadzorowane, klasyfikacja tekstu, fixmatch, vat, pseudo-label, bert, word2vec, fasttext, modele językowe, n-gram
machine learning, ml, nlp, ssl, semi-supervised learning, text classification, fixmatch, vat, pseudo-label, bert, word2vec, fasttext, nplm, n-gram
Praca poświęcona jest zagadnieniu uczenia częściowo nadzorowanego dlazadania związanego z klasyfikacją tekstów. Jednym z celów pracy jest przetestowanie częściowo nadzorowanego algorytmu FixMatch w domenie przetwarzania języka naturalnego.Przytoczony algorytm daje najlepsze wyniki w przypadku zadania związanego z klasyfikacją obrazów, wykorzystując jedyniekilka oetykietowanych przykładów. W celu sprawdzeniaFixMatch'a dla problemu klasyfikacji tekstu, konieczne jest stworzenie realistycznychmetod rozszerzenia zbioru danych uczących, które zostaną zaproponowane w poniższej pracy. W celu prawidłowej oceny algorytmu FixMatch, dwie inne popularne metody uczenia częsciowo nadzorowanego (VAT, Pseudo-Label) oraz model nadzorowany, zostaną wytrenowane jako punkty odniesienia dla otrzymanych wyników. Kolejnym celem tej pracy jest sprawdzenie, jakna wynik zestawu testowego wpływa proces szkolenia i selekcjihiperparametrów stosując różne proporcje rozmiaru danych treningowych i walidacyjnych. Ostatnim celem będzie sprawdzenie tego jak hiperparametry dobrane na małych zestawach walidacyjnych, skalują się dla większej liczby danych oetykietowanych i nieoetykietowanych.Wyniki przeprowadzonych eksperymentów dla algorytmu FixMatchwskazują, że przy wybranych wartościach hiperparametrów nie udało się powtórzyć sukcesu metody z dziedziny wizji komputerowej w domenie NLP. Można postawić hipotezę, że liczbadanych uczących oraz walidacyjnych i/lub czas trwania treningu był zbyt krótki.Po zapoznaniu się z niektórymi wynikami doświadczeń z różnymi metodami czesciowo nadzorowanymi, pojawia się wniosek, że liczba przykładów wzestawie walidacyjnym powinna być nieco mniejsza lub równa liczbie przykładóww zestawie treningowym. W przypadku testowanych metod częsciowo nadzorowanych, błąd w zestawie testowymzmniejsza się wraz z trenowaniem na dodatkowej liczbie danych oetykietowanych,podczas gdy w przypadku danych nieoetykietowanych, nie ma takiej relacji.
The work is devoted to the issue of semi-supervised learning forthe tasks of text classification. One of the aims is to test the semi-supervisedlearning algorithm called FixMatch in the NLP domain.This method is considered to be state-of-the-art for problems of imageclassification with a few training labeled examples. In order to testFixMatch for text classification, it is necessary to create realisticaugmentations, which will be proposed in the following work. Inorder to evaluate the FixMatch properly, two other popular SSLmethods (VAT, Pseudo-Label) and supervised model, will be trainedas comparative baselines. Another goal of this work is to check howthe result on the test set are affected by training process and selectionof hyperparameters using different ratio of the training and validationset sizes. The last goal will be to examine the quality of the chosenhyperparameters on small validation sets, also by checking the resultsof the SLL methods which were trained on more labelled and unlabeleddata.Results of the conducted experiments for the FixMatch algorithmindicate, that with chosen experimental settings it was not possibleto transfer state-of-the-art scores from the computer vision domaininto the NLP domain. It can be hypothesized that the number ofvalidation data samples and/or the duration of training was too low.After observing some of the experiments results with different SSLmethods, a conclusion appears, that the number of examples in thevalidation set should be slightly less or equal to the number of examplesin the training set. For tested SSL methods, the error on the test setis decreasing with training on an additional number of labeled data,while in the case of unlabeled data, there is no such relation.
dc.abstract.en | The work is devoted to the issue of semi-supervised learning forthe tasks of text classification. One of the aims is to test the semi-supervisedlearning algorithm called FixMatch in the NLP domain.This method is considered to be state-of-the-art for problems of imageclassification with a few training labeled examples. In order to testFixMatch for text classification, it is necessary to create realisticaugmentations, which will be proposed in the following work. Inorder to evaluate the FixMatch properly, two other popular SSLmethods (VAT, Pseudo-Label) and supervised model, will be trainedas comparative baselines. Another goal of this work is to check howthe result on the test set are affected by training process and selectionof hyperparameters using different ratio of the training and validationset sizes. The last goal will be to examine the quality of the chosenhyperparameters on small validation sets, also by checking the resultsof the SLL methods which were trained on more labelled and unlabeleddata.Results of the conducted experiments for the FixMatch algorithmindicate, that with chosen experimental settings it was not possibleto transfer state-of-the-art scores from the computer vision domaininto the NLP domain. It can be hypothesized that the number ofvalidation data samples and/or the duration of training was too low.After observing some of the experiments results with different SSLmethods, a conclusion appears, that the number of examples in thevalidation set should be slightly less or equal to the number of examplesin the training set. For tested SSL methods, the error on the test setis decreasing with training on an additional number of labeled data,while in the case of unlabeled data, there is no such relation. | pl |
dc.abstract.pl | Praca poświęcona jest zagadnieniu uczenia częściowo nadzorowanego dlazadania związanego z klasyfikacją tekstów. Jednym z celów pracy jest przetestowanie częściowo nadzorowanego algorytmu FixMatch w domenie przetwarzania języka naturalnego.Przytoczony algorytm daje najlepsze wyniki w przypadku zadania związanego z klasyfikacją obrazów, wykorzystując jedyniekilka oetykietowanych przykładów. W celu sprawdzeniaFixMatch'a dla problemu klasyfikacji tekstu, konieczne jest stworzenie realistycznychmetod rozszerzenia zbioru danych uczących, które zostaną zaproponowane w poniższej pracy. W celu prawidłowej oceny algorytmu FixMatch, dwie inne popularne metody uczenia częsciowo nadzorowanego (VAT, Pseudo-Label) oraz model nadzorowany, zostaną wytrenowane jako punkty odniesienia dla otrzymanych wyników. Kolejnym celem tej pracy jest sprawdzenie, jakna wynik zestawu testowego wpływa proces szkolenia i selekcjihiperparametrów stosując różne proporcje rozmiaru danych treningowych i walidacyjnych. Ostatnim celem będzie sprawdzenie tego jak hiperparametry dobrane na małych zestawach walidacyjnych, skalują się dla większej liczby danych oetykietowanych i nieoetykietowanych.Wyniki przeprowadzonych eksperymentów dla algorytmu FixMatchwskazują, że przy wybranych wartościach hiperparametrów nie udało się powtórzyć sukcesu metody z dziedziny wizji komputerowej w domenie NLP. Można postawić hipotezę, że liczbadanych uczących oraz walidacyjnych i/lub czas trwania treningu był zbyt krótki.Po zapoznaniu się z niektórymi wynikami doświadczeń z różnymi metodami czesciowo nadzorowanymi, pojawia się wniosek, że liczba przykładów wzestawie walidacyjnym powinna być nieco mniejsza lub równa liczbie przykładóww zestawie treningowym. W przypadku testowanych metod częsciowo nadzorowanych, błąd w zestawie testowymzmniejsza się wraz z trenowaniem na dodatkowej liczbie danych oetykietowanych,podczas gdy w przypadku danych nieoetykietowanych, nie ma takiej relacji. | pl |
dc.affiliation | Wydział Matematyki i Informatyki | pl |
dc.area | obszar nauk ścisłych | pl |
dc.contributor.advisor | Śmieja, Marek | pl |
dc.contributor.author | Filek, Michał | pl |
dc.contributor.departmentbycode | UJK/WMI2 | pl |
dc.contributor.reviewer | Śmieja, Marek | pl |
dc.contributor.reviewer | Podolak, Igor - 100165 | pl |
dc.date.accessioned | 2020-10-25T23:05:40Z | |
dc.date.available | 2020-10-25T23:05:40Z | |
dc.date.submitted | 2020-10-20 | pl |
dc.fieldofstudy | nauczanie maszynowe | pl |
dc.identifier.apd | diploma-141238-264067 | pl |
dc.identifier.project | APD / O | pl |
dc.identifier.uri | https://ruj.uj.edu.pl/xmlui/handle/item/251219 | |
dc.language | eng | pl |
dc.subject.en | machine learning, ml, nlp, ssl, semi-supervised learning, text classification, fixmatch, vat, pseudo-label, bert, word2vec, fasttext, nplm, n-gram | pl |
dc.subject.pl | uczenie maszynowe, ml, przetwarzanie języka naturalnego, uczenie częsciowo nadzorowane, klasyfikacja tekstu, fixmatch, vat, pseudo-label, bert, word2vec, fasttext, modele językowe, n-gram | pl |
dc.title | Text classification using the semi-supervised methods | pl |
dc.title.alternative | Klasyfikacja tekstu przy użyciu metod częściowo nadzorowanych | pl |
dc.type | master | pl |
dspace.entity.type | Publication |