Simple view
Full metadata view
Authors
Statistics
Diaryzacja audio przy wykorzystaniu sieci LSTM
Speaker diarization with use of LSTM
uczenie maszynowe, cyfrowe przetwarzanie dźwięku, rozpoznawanie mowy
machine learning, digital signal processing, speech recognition
Niniejsza praca magisterska przedstawia zastosowanie uczenia maszynowego w przetwarzaniu dźwięku, a w szczególności diaryzacji jednokanałowego sygnału dźwiękowego. Diaryzacja polega na rozróżnianiu mówców na nagraniu. Najpierw na detekcji ilości mówców, następnie klasteryzacji i oznaczeniu na osi czasu występowanie tych mówców. Model diaryzacji opisywany w tej pracy zakłada, że w danej chwili mówi tylko jedna osoba. Ta praca ma na celu implementację i weryfikację metody opisanej w artykule [1]. Wytrenowany model sztucznej inteligencji uzyskał wynik diaryzacji na poziomie 73 % DER, co nie jest satysfakcjonującym rezultatem. Referencyjny wynik z pracy [1] wynosi 12.5%. Warto zaznaczyć, że niektóre nagrania w zbiorze CALLHOME [2] uzyskują DER na poziomie 39%, co bliższe jest wynikom zaprezentowanym w oryginale [1].
This master’s degree article concerns machine learning with use of digital signal processing. Diarization is a method which extracts different sources from mono audio channel. Firstly it consists of detecting speaker quantity, afterwards clustering and marking each speaker on time axis. Diarization model described in this article assumes only one speaker at a time. The purpose of this master’s degree article is to present and verify method described in article [1]. Diarization model trained in this work achieves 73 % DER which is not satisfactory. In [1] this measure reaches 12.5 % DER. Nevertheless there are such CALLHOME [2] recordings on which model from this master’s degree work achieves 39 % DER.
dc.abstract.en | This master’s degree article concerns machine learning with use of digital signal processing. Diarization is a method which extracts different sources from mono audio channel. Firstly it consists of detecting speaker quantity, afterwards clustering and marking each speaker on time axis. Diarization model described in this article assumes only one speaker at a time. The purpose of this master’s degree article is to present and verify method described in article [1]. Diarization model trained in this work achieves 73 % DER which is not satisfactory. In [1] this measure reaches 12.5 % DER. Nevertheless there are such CALLHOME [2] recordings on which model from this master’s degree work achieves 39 % DER. | pl |
dc.abstract.pl | Niniejsza praca magisterska przedstawia zastosowanie uczenia maszynowego w przetwarzaniu dźwięku, a w szczególności diaryzacji jednokanałowego sygnału dźwiękowego. Diaryzacja polega na rozróżnianiu mówców na nagraniu. Najpierw na detekcji ilości mówców, następnie klasteryzacji i oznaczeniu na osi czasu występowanie tych mówców. Model diaryzacji opisywany w tej pracy zakłada, że w danej chwili mówi tylko jedna osoba. Ta praca ma na celu implementację i weryfikację metody opisanej w artykule [1]. Wytrenowany model sztucznej inteligencji uzyskał wynik diaryzacji na poziomie 73 % DER, co nie jest satysfakcjonującym rezultatem. Referencyjny wynik z pracy [1] wynosi 12.5%. Warto zaznaczyć, że niektóre nagrania w zbiorze CALLHOME [2] uzyskują DER na poziomie 39%, co bliższe jest wynikom zaprezentowanym w oryginale [1]. | pl |
dc.affiliation | Wydział Matematyki i Informatyki | pl |
dc.area | obszar nauk ścisłych | pl |
dc.contributor.advisor | Żelawski, Marcin - 132962 | pl |
dc.contributor.author | Rozwoda, Paweł | pl |
dc.contributor.departmentbycode | UJK/WMI2 | pl |
dc.contributor.reviewer | Żelawski, Marcin - 132962 | pl |
dc.contributor.reviewer | Wilczak, Daniel - 132637 | pl |
dc.date.accessioned | 2021-10-29T21:47:37Z | |
dc.date.available | 2021-10-29T21:47:37Z | |
dc.date.submitted | 2021-10-29 | pl |
dc.fieldofstudy | informatyka | pl |
dc.identifier.apd | diploma-149774-179797 | pl |
dc.identifier.project | APD / O | pl |
dc.identifier.uri | https://ruj.uj.edu.pl/xmlui/handle/item/282400 | |
dc.language | pol | pl |
dc.subject.en | machine learning, digital signal processing, speech recognition | pl |
dc.subject.pl | uczenie maszynowe, cyfrowe przetwarzanie dźwięku, rozpoznawanie mowy | pl |
dc.title | Diaryzacja audio przy wykorzystaniu sieci LSTM | pl |
dc.title.alternative | Speaker diarization with use of LSTM | pl |
dc.type | master | pl |
dspace.entity.type | Publication |