Biblioteka do wielopoziomowego przetwarzania sygnałów dźwiękowych ze szczególnym uwzględnieniem przetwarzania mowy

Wenta, Szymon

Simple view

Full metadata view

Authors

Statistics

Biblioteka do wielopoziomowego przetwarzania sygnałów dźwiękowych ze szczególnym uwzględnieniem przetwarzania mowy

master

Alternative title

Multi-level sound processing library with particular emphasis on speech recognition

Author

Wenta Szymon

Reviewer

Wilczak Daniel

Żelawski Marcin

Advisor

Żelawski Marcin

Date of defence

2015-10-20

Keywords in Polish

dźwięk, sygnał cyfrowy, transformacja Fouriera, filtr cyfrowy, FIR, IIR, mowa, rozpoznawanie mowy, ukryte łańcuchy Markowa, Gaussian Mixture Model, HMM, GMM, MFCC, biblioteka C++

Keywords in English

sound, digital signal, Fourier transform, digital filter, FIR, IIR, speech, automatic speech recognition, Hidden Markov Model, Gaussian Mixture Model, HMM, GMM, MFCC, C++ library

Language

Polish

Abstract in Polish

Niniejsza praca poświęcona jest przetwarzaniu sygnałów dźwiękowych, a główna uwaga została skupiona na problematyce związanej z rozpoznawaniem mowy. Proces powstawania dźwięku oraz jego charakterystyka zostały opisane od strony fizycznej, poprzez reprezentację cyfrową, a na zagadnieniach fonetycznych i psychoakustycznych kończąc. Dodatkowo zaprezentowano sposób tworzenia filtrów cyfrowych i ich użycia. Jest to wielopoziomowe opracowanie schematu powstawania mowy oraz próba wysnucia wniosków, które pozwoliłyby na zaimplementowanie algorytmu automatycznie ją rozpoznającego. Zgromadzona wiedza teoretyczna jest podstawą do stworzenia od podstaw biblioteki w języku C++, służącej do obróbki plików dźwiękowych, głównie w celu dalszego przetwarzania przez zaimplementowany model oparty na leksykonie, który jest aktualnym trendem w dziedzinie rozpoznawania mowy. Architektura zaimplementowanej biblioteki oparta jest na wzorcach projektowych, aby ułatwić jej dalszą rozbudowę. Ostatni rozdział przedstawia autorski pomysł algorytmu rozpoznawania mowy opracowany na podstawie zgromadzonej wiedzy lingwistycznej.

Abstract in English

This thesis is focused on the audio signals processing, with particular emphasis on the automatic speech recognition problem. The formation of sound and its characteristic were described from the perspective of physics, digital representation, phonetics and psychoacoustics. Additionally, the process of building and usage of digital filters was presented. The thesis is a complex multilevel description of the speech articulation and an attempt to make some conclusions how to implement the algorithm, solving the problem of automatic speech recognition. The gathered theory is then used to develop a C++ library for the audio files processing, especially as a basis for the implemented model, built on the top of the lexicon, which is a state of the art in the field of speech recognition. The architecture of implemented library is created using design patterns, what allows to extend its functionalities in an easy manner. The last chapter describes author's own concept of a similar algorithm based on the linguistic knowledge.

dc.abstract.en	This thesis is focused on the audio signals processing, with particular emphasis on the automatic speech recognition problem. The formation of sound and its characteristic were described from the perspective of physics, digital representation, phonetics and psychoacoustics. Additionally, the process of building and usage of digital filters was presented. The thesis is a complex multilevel description of the speech articulation and an attempt to make some conclusions how to implement the algorithm, solving the problem of automatic speech recognition. The gathered theory is then used to develop a C++ library for the audio files processing, especially as a basis for the implemented model, built on the top of the lexicon, which is a state of the art in the field of speech recognition. The architecture of implemented library is created using design patterns, what allows to extend its functionalities in an easy manner. The last chapter describes author's own concept of a similar algorithm based on the linguistic knowledge.	pl
dc.abstract.pl	Niniejsza praca poświęcona jest przetwarzaniu sygnałów dźwiękowych, a główna uwaga została skupiona na problematyce związanej z rozpoznawaniem mowy. Proces powstawania dźwięku oraz jego charakterystyka zostały opisane od strony fizycznej, poprzez reprezentację cyfrową, a na zagadnieniach fonetycznych i psychoakustycznych kończąc. Dodatkowo zaprezentowano sposób tworzenia filtrów cyfrowych i ich użycia. Jest to wielopoziomowe opracowanie schematu powstawania mowy oraz próba wysnucia wniosków, które pozwoliłyby na zaimplementowanie algorytmu automatycznie ją rozpoznającego. Zgromadzona wiedza teoretyczna jest podstawą do stworzenia od podstaw biblioteki w języku C++, służącej do obróbki plików dźwiękowych, głównie w celu dalszego przetwarzania przez zaimplementowany model oparty na leksykonie, który jest aktualnym trendem w dziedzinie rozpoznawania mowy. Architektura zaimplementowanej biblioteki oparta jest na wzorcach projektowych, aby ułatwić jej dalszą rozbudowę. Ostatni rozdział przedstawia autorski pomysł algorytmu rozpoznawania mowy opracowany na podstawie zgromadzonej wiedzy lingwistycznej.	pl
dc.affiliation	Wydział Matematyki i Informatyki	pl
dc.area	obszar nauk ścisłych	pl
dc.contributor.advisor	Żelawski, Marcin - 132962	pl
dc.contributor.author	Wenta, Szymon	pl
dc.contributor.departmentbycode	UJK/WMI2	pl
dc.contributor.reviewer	Wilczak, Daniel - 132637	pl
dc.contributor.reviewer	Żelawski, Marcin - 132962	pl
dc.date.accessioned	2020-07-26T12:01:25Z
dc.date.available	2020-07-26T12:01:25Z
dc.date.submitted	2015-10-20	pl
dc.fieldofstudy	inżynieria oprogramowania	pl
dc.identifier.apd	diploma-95046-126830	pl
dc.identifier.project	APD / O	pl
dc.identifier.uri	https://ruj.uj.edu.pl/xmlui/handle/item/202579
dc.language	pol	pl
dc.subject.en	sound, digital signal, Fourier transform, digital filter, FIR, IIR, speech, automatic speech recognition, Hidden Markov Model, Gaussian Mixture Model, HMM, GMM, MFCC, C++ library	pl
dc.subject.pl	dźwięk, sygnał cyfrowy, transformacja Fouriera, filtr cyfrowy, FIR, IIR, mowa, rozpoznawanie mowy, ukryte łańcuchy Markowa, Gaussian Mixture Model, HMM, GMM, MFCC, biblioteka C++	pl
dc.title	Biblioteka do wielopoziomowego przetwarzania sygnałów dźwiękowych ze szczególnym uwzględnieniem przetwarzania mowy	pl
dc.title.alternative	Multi-level sound processing library with particular emphasis on speech recognition	pl
dc.type	master	pl
dspace.entity.type	Publication

dc.abstract.enpl

This thesis is focused on the audio signals processing, with particular emphasis on the automatic speech recognition problem. The formation of sound and its characteristic were described from the perspective of physics, digital representation, phonetics and psychoacoustics. Additionally, the process of building and usage of digital filters was presented. The thesis is a complex multilevel description of the speech articulation and an attempt to make some conclusions how to implement the algorithm, solving the problem of automatic speech recognition. The gathered theory is then used to develop a C++ library for the audio files processing, especially as a basis for the implemented model, built on the top of the lexicon, which is a state of the art in the field of speech recognition. The architecture of implemented library is created using design patterns, what allows to extend its functionalities in an easy manner. The last chapter describes author's own concept of a similar algorithm based on the linguistic knowledge.

dc.abstract.plpl

Niniejsza praca poświęcona jest przetwarzaniu sygnałów dźwiękowych, a główna uwaga została skupiona na problematyce związanej z rozpoznawaniem mowy. Proces powstawania dźwięku oraz jego charakterystyka zostały opisane od strony fizycznej, poprzez reprezentację cyfrową, a na zagadnieniach fonetycznych i psychoakustycznych kończąc. Dodatkowo zaprezentowano sposób tworzenia filtrów cyfrowych i ich użycia. Jest to wielopoziomowe opracowanie schematu powstawania mowy oraz próba wysnucia wniosków, które pozwoliłyby na zaimplementowanie algorytmu automatycznie ją rozpoznającego. Zgromadzona wiedza teoretyczna jest podstawą do stworzenia od podstaw biblioteki w języku C++, służącej do obróbki plików dźwiękowych, głównie w celu dalszego przetwarzania przez zaimplementowany model oparty na leksykonie, który jest aktualnym trendem w dziedzinie rozpoznawania mowy. Architektura zaimplementowanej biblioteki oparta jest na wzorcach projektowych, aby ułatwić jej dalszą rozbudowę. Ostatni rozdział przedstawia autorski pomysł algorytmu rozpoznawania mowy opracowany na podstawie zgromadzonej wiedzy lingwistycznej.

dc.affiliationpl

Wydział Matematyki i Informatyki

dc.areapl

obszar nauk ścisłych

dc.contributor.advisorpl

Żelawski, Marcin - 132962

dc.contributor.authorpl

Wenta, Szymon

dc.contributor.departmentbycodepl

UJK/WMI2

dc.contributor.reviewerpl

Wilczak, Daniel - 132637

dc.contributor.reviewerpl

Żelawski, Marcin - 132962

dc.date.accessioned

2020-07-26T12:01:25Z

dc.date.available

2020-07-26T12:01:25Z

dc.date.submittedpl

2015-10-20

dc.fieldofstudypl

inżynieria oprogramowania

dc.identifier.apdpl

diploma-95046-126830

dc.identifier.projectpl

APD / O

dc.identifier.uri

https://ruj.uj.edu.pl/xmlui/handle/item/202579

dc.languagepl

pol

dc.subject.enpl

sound, digital signal, Fourier transform, digital filter, FIR, IIR, speech, automatic speech recognition, Hidden Markov Model, Gaussian Mixture Model, HMM, GMM, MFCC, C++ library

dc.subject.plpl

dźwięk, sygnał cyfrowy, transformacja Fouriera, filtr cyfrowy, FIR, IIR, mowa, rozpoznawanie mowy, ukryte łańcuchy Markowa, Gaussian Mixture Model, HMM, GMM, MFCC, biblioteka C++

dc.titlepl

Biblioteka do wielopoziomowego przetwarzania sygnałów dźwiękowych ze szczególnym uwzględnieniem przetwarzania mowy

dc.title.alternativepl

Multi-level sound processing library with particular emphasis on speech recognition

dc.typepl

master

dspace.entity.type

Publication

Affiliations

No affiliation

Wenta, Szymon

Wilczak, Daniel

Żelawski, Marcin

* The migration of download and view statistics prior to the date of April 8, 2024 is in progress.

Views

36 Views per month

Views per city

Bend

6

Los Angeles

4

Frankfurt am Main

3

Bialystok

2

Boston

2

Dublin

2

Krakow

2

Vitry-sur-Seine

2

Warsaw

2

Wroclaw

2

No access

Collections

Masters theses

ROD UJ