Diaryzacja audio przy wykorzystaniu sieci LSTM

Rozwoda, Paweł

Simple view

Full metadata view

Authors

Statistics

Diaryzacja audio przy wykorzystaniu sieci LSTM

master

Alternative title

Speaker diarization with use of LSTM

Author

Rozwoda Paweł

Reviewer

Żelawski Marcin

Wilczak Daniel

Advisor

Żelawski Marcin

Date of defence

2021-10-29

Keywords in Polish

uczenie maszynowe, cyfrowe przetwarzanie dźwięku, rozpoznawanie mowy

Keywords in English

machine learning, digital signal processing, speech recognition

Language

Polish

Abstract in Polish

Niniejsza praca magisterska przedstawia zastosowanie uczenia maszynowego w przetwarzaniu dźwięku, a w szczególności diaryzacji jednokanałowego sygnału dźwiękowego. Diaryzacja polega na rozróżnianiu mówców na nagraniu. Najpierw na detekcji ilości mówców, następnie klasteryzacji i oznaczeniu na osi czasu występowanie tych mówców. Model diaryzacji opisywany w tej pracy zakłada, że w danej chwili mówi tylko jedna osoba. Ta praca ma na celu implementację i weryfikację metody opisanej w artykule [1]. Wytrenowany model sztucznej inteligencji uzyskał wynik diaryzacji na poziomie 73 % DER, co nie jest satysfakcjonującym rezultatem. Referencyjny wynik z pracy [1] wynosi 12.5%. Warto zaznaczyć, że niektóre nagrania w zbiorze CALLHOME [2] uzyskują DER na poziomie 39%, co bliższe jest wynikom zaprezentowanym w oryginale [1].

Abstract in English

This master’s degree article concerns machine learning with use of digital signal processing. Diarization is a method which extracts different sources from mono audio channel. Firstly it consists of detecting speaker quantity, afterwards clustering and marking each speaker on time axis. Diarization model described in this article assumes only one speaker at a time. The purpose of this master’s degree article is to present and verify method described in article [1]. Diarization model trained in this work achieves 73 % DER which is not satisfactory. In [1] this measure reaches 12.5 % DER. Nevertheless there are such CALLHOME [2] recordings on which model from this master’s degree work achieves 39 % DER.

dc.abstract.en	This master’s degree article concerns machine learning with use of digital signal processing. Diarization is a method which extracts different sources from mono audio channel. Firstly it consists of detecting speaker quantity, afterwards clustering and marking each speaker on time axis. Diarization model described in this article assumes only one speaker at a time. The purpose of this master’s degree article is to present and verify method described in article [1]. Diarization model trained in this work achieves 73 % DER which is not satisfactory. In [1] this measure reaches 12.5 % DER. Nevertheless there are such CALLHOME [2] recordings on which model from this master’s degree work achieves 39 % DER.	pl
dc.abstract.pl	Niniejsza praca magisterska przedstawia zastosowanie uczenia maszynowego w przetwarzaniu dźwięku, a w szczególności diaryzacji jednokanałowego sygnału dźwiękowego. Diaryzacja polega na rozróżnianiu mówców na nagraniu. Najpierw na detekcji ilości mówców, następnie klasteryzacji i oznaczeniu na osi czasu występowanie tych mówców. Model diaryzacji opisywany w tej pracy zakłada, że w danej chwili mówi tylko jedna osoba. Ta praca ma na celu implementację i weryfikację metody opisanej w artykule [1]. Wytrenowany model sztucznej inteligencji uzyskał wynik diaryzacji na poziomie 73 % DER, co nie jest satysfakcjonującym rezultatem. Referencyjny wynik z pracy [1] wynosi 12.5%. Warto zaznaczyć, że niektóre nagrania w zbiorze CALLHOME [2] uzyskują DER na poziomie 39%, co bliższe jest wynikom zaprezentowanym w oryginale [1].	pl
dc.affiliation	Wydział Matematyki i Informatyki	pl
dc.area	obszar nauk ścisłych	pl
dc.contributor.advisor	Żelawski, Marcin - 132962	pl
dc.contributor.author	Rozwoda, Paweł	pl
dc.contributor.departmentbycode	UJK/WMI2	pl
dc.contributor.reviewer	Żelawski, Marcin - 132962	pl
dc.contributor.reviewer	Wilczak, Daniel - 132637	pl
dc.date.accessioned	2021-10-29T21:47:37Z
dc.date.available	2021-10-29T21:47:37Z
dc.date.submitted	2021-10-29	pl
dc.fieldofstudy	informatyka	pl
dc.identifier.apd	diploma-149774-179797	pl
dc.identifier.project	APD / O	pl
dc.identifier.uri	https://ruj.uj.edu.pl/xmlui/handle/item/282400
dc.language	pol	pl
dc.subject.en	machine learning, digital signal processing, speech recognition	pl
dc.subject.pl	uczenie maszynowe, cyfrowe przetwarzanie dźwięku, rozpoznawanie mowy	pl
dc.title	Diaryzacja audio przy wykorzystaniu sieci LSTM	pl
dc.title.alternative	Speaker diarization with use of LSTM	pl
dc.type	master	pl
dspace.entity.type	Publication

dc.abstract.enpl

This master’s degree article concerns machine learning with use of digital signal processing. Diarization is a method which extracts different sources from mono audio channel. Firstly it consists of detecting speaker quantity, afterwards clustering and marking each speaker on time axis. Diarization model described in this article assumes only one speaker at a time. The purpose of this master’s degree article is to present and verify method described in article [1]. Diarization model trained in this work achieves 73 % DER which is not satisfactory. In [1] this measure reaches 12.5 % DER. Nevertheless there are such CALLHOME [2] recordings on which model from this master’s degree work achieves 39 % DER.

dc.abstract.plpl

Niniejsza praca magisterska przedstawia zastosowanie uczenia maszynowego w przetwarzaniu dźwięku, a w szczególności diaryzacji jednokanałowego sygnału dźwiękowego. Diaryzacja polega na rozróżnianiu mówców na nagraniu. Najpierw na detekcji ilości mówców, następnie klasteryzacji i oznaczeniu na osi czasu występowanie tych mówców. Model diaryzacji opisywany w tej pracy zakłada, że w danej chwili mówi tylko jedna osoba. Ta praca ma na celu implementację i weryfikację metody opisanej w artykule [1]. Wytrenowany model sztucznej inteligencji uzyskał wynik diaryzacji na poziomie 73 % DER, co nie jest satysfakcjonującym rezultatem. Referencyjny wynik z pracy [1] wynosi 12.5%. Warto zaznaczyć, że niektóre nagrania w zbiorze CALLHOME [2] uzyskują DER na poziomie 39%, co bliższe jest wynikom zaprezentowanym w oryginale [1].

dc.affiliationpl

Wydział Matematyki i Informatyki

dc.areapl

obszar nauk ścisłych

dc.contributor.advisorpl

Żelawski, Marcin - 132962

dc.contributor.authorpl

Rozwoda, Paweł

dc.contributor.departmentbycodepl

UJK/WMI2

dc.contributor.reviewerpl

Żelawski, Marcin - 132962

dc.contributor.reviewerpl

Wilczak, Daniel - 132637

dc.date.accessioned

2021-10-29T21:47:37Z

dc.date.available

2021-10-29T21:47:37Z

dc.date.submittedpl

2021-10-29

dc.fieldofstudypl

informatyka

dc.identifier.apdpl

diploma-149774-179797

dc.identifier.projectpl

APD / O

dc.identifier.uri

https://ruj.uj.edu.pl/xmlui/handle/item/282400

dc.languagepl

pol

dc.subject.enpl

machine learning, digital signal processing, speech recognition

dc.subject.plpl

uczenie maszynowe, cyfrowe przetwarzanie dźwięku, rozpoznawanie mowy

dc.titlepl

Diaryzacja audio przy wykorzystaniu sieci LSTM

dc.title.alternativepl

Speaker diarization with use of LSTM

dc.typepl

master

dspace.entity.type

Publication

Affiliations

No affiliation

Rozwoda, Paweł

Żelawski, Marcin

Wilczak, Daniel

* The migration of download and view statistics prior to the date of April 8, 2024 is in progress.

Views

193 Views per month

Views per city

Warsaw

53

Krakow

17

Wroclaw

17

Gdansk

8

Poznan

6

Rzeszów

6

Lodz

4

Olsztyn

4

Stawiski

3

Szczecin

3

No access

Collections

Masters theses

ROD UJ