Diaryzacja audio przy wykorzystaniu sieci LSTM

master
dc.abstract.enThis master’s degree article concerns machine learning with use of digital signal processing. Diarization is a method which extracts different sources from mono audio channel. Firstly it consists of detecting speaker quantity, afterwards clustering and marking each speaker on time axis. Diarization model described in this article assumes only one speaker at a time. The purpose of this master’s degree article is to present and verify method described in article [1]. Diarization model trained in this work achieves 73 % DER which is not satisfactory. In [1] this measure reaches 12.5 % DER. Nevertheless there are such CALLHOME [2] recordings on which model from this master’s degree work achieves 39 % DER.pl
dc.abstract.plNiniejsza praca magisterska przedstawia zastosowanie uczenia maszynowego w przetwarzaniu dźwięku, a w szczególności diaryzacji jednokanałowego sygnału dźwiękowego. Diaryzacja polega na rozróżnianiu mówców na nagraniu. Najpierw na detekcji ilości mówców, następnie klasteryzacji i oznaczeniu na osi czasu występowanie tych mówców. Model diaryzacji opisywany w tej pracy zakłada, że w danej chwili mówi tylko jedna osoba. Ta praca ma na celu implementację i weryfikację metody opisanej w artykule [1]. Wytrenowany model sztucznej inteligencji uzyskał wynik diaryzacji na poziomie 73 % DER, co nie jest satysfakcjonującym rezultatem. Referencyjny wynik z pracy [1] wynosi 12.5%. Warto zaznaczyć, że niektóre nagrania w zbiorze CALLHOME [2] uzyskują DER na poziomie 39%, co bliższe jest wynikom zaprezentowanym w oryginale [1].pl
dc.affiliationWydział Matematyki i Informatykipl
dc.areaobszar nauk ścisłychpl
dc.contributor.advisorŻelawski, Marcin - 132962 pl
dc.contributor.authorRozwoda, Pawełpl
dc.contributor.departmentbycodeUJK/WMI2pl
dc.contributor.reviewerŻelawski, Marcin - 132962 pl
dc.contributor.reviewerWilczak, Daniel - 132637 pl
dc.date.accessioned2021-10-29T21:47:37Z
dc.date.available2021-10-29T21:47:37Z
dc.date.submitted2021-10-29pl
dc.fieldofstudyinformatykapl
dc.identifier.apddiploma-149774-179797pl
dc.identifier.projectAPD / Opl
dc.identifier.urihttps://ruj.uj.edu.pl/xmlui/handle/item/282400
dc.languagepolpl
dc.subject.enmachine learning, digital signal processing, speech recognitionpl
dc.subject.pluczenie maszynowe, cyfrowe przetwarzanie dźwięku, rozpoznawanie mowypl
dc.titleDiaryzacja audio przy wykorzystaniu sieci LSTMpl
dc.title.alternativeSpeaker diarization with use of LSTMpl
dc.typemasterpl
dspace.entity.typePublication
dc.abstract.enpl
This master’s degree article concerns machine learning with use of digital signal processing. Diarization is a method which extracts different sources from mono audio channel. Firstly it consists of detecting speaker quantity, afterwards clustering and marking each speaker on time axis. Diarization model described in this article assumes only one speaker at a time. The purpose of this master’s degree article is to present and verify method described in article [1]. Diarization model trained in this work achieves 73 % DER which is not satisfactory. In [1] this measure reaches 12.5 % DER. Nevertheless there are such CALLHOME [2] recordings on which model from this master’s degree work achieves 39 % DER.
dc.abstract.plpl
Niniejsza praca magisterska przedstawia zastosowanie uczenia maszynowego w przetwarzaniu dźwięku, a w szczególności diaryzacji jednokanałowego sygnału dźwiękowego. Diaryzacja polega na rozróżnianiu mówców na nagraniu. Najpierw na detekcji ilości mówców, następnie klasteryzacji i oznaczeniu na osi czasu występowanie tych mówców. Model diaryzacji opisywany w tej pracy zakłada, że w danej chwili mówi tylko jedna osoba. Ta praca ma na celu implementację i weryfikację metody opisanej w artykule [1]. Wytrenowany model sztucznej inteligencji uzyskał wynik diaryzacji na poziomie 73 % DER, co nie jest satysfakcjonującym rezultatem. Referencyjny wynik z pracy [1] wynosi 12.5%. Warto zaznaczyć, że niektóre nagrania w zbiorze CALLHOME [2] uzyskują DER na poziomie 39%, co bliższe jest wynikom zaprezentowanym w oryginale [1].
dc.affiliationpl
Wydział Matematyki i Informatyki
dc.areapl
obszar nauk ścisłych
dc.contributor.advisorpl
Żelawski, Marcin - 132962
dc.contributor.authorpl
Rozwoda, Paweł
dc.contributor.departmentbycodepl
UJK/WMI2
dc.contributor.reviewerpl
Żelawski, Marcin - 132962
dc.contributor.reviewerpl
Wilczak, Daniel - 132637
dc.date.accessioned
2021-10-29T21:47:37Z
dc.date.available
2021-10-29T21:47:37Z
dc.date.submittedpl
2021-10-29
dc.fieldofstudypl
informatyka
dc.identifier.apdpl
diploma-149774-179797
dc.identifier.projectpl
APD / O
dc.identifier.uri
https://ruj.uj.edu.pl/xmlui/handle/item/282400
dc.languagepl
pol
dc.subject.enpl
machine learning, digital signal processing, speech recognition
dc.subject.plpl
uczenie maszynowe, cyfrowe przetwarzanie dźwięku, rozpoznawanie mowy
dc.titlepl
Diaryzacja audio przy wykorzystaniu sieci LSTM
dc.title.alternativepl
Speaker diarization with use of LSTM
dc.typepl
master
dspace.entity.type
Publication
Affiliations

* The migration of download and view statistics prior to the date of April 8, 2024 is in progress.

Views
180
Views per month
Views per city
Warsaw
47
Krakow
17
Wroclaw
16
Gdansk
8
Rzeszów
6
Olsztyn
4
Poznan
4
Lodz
3
Stawiski
3
Szczecin
3

No access

No Thumbnail Available