Simple view
Full metadata view
Authors
Statistics
Biblioteka do wielopoziomowego przetwarzania sygnałów dźwiękowych ze szczególnym uwzględnieniem przetwarzania mowy
Multi-level sound processing library with particular emphasis on speech recognition
dźwięk, sygnał cyfrowy, transformacja Fouriera, filtr cyfrowy, FIR, IIR, mowa, rozpoznawanie mowy, ukryte łańcuchy Markowa, Gaussian Mixture Model, HMM, GMM, MFCC, biblioteka C++
sound, digital signal, Fourier transform, digital filter, FIR, IIR, speech, automatic speech recognition, Hidden Markov Model, Gaussian Mixture Model, HMM, GMM, MFCC, C++ library
Niniejsza praca poświęcona jest przetwarzaniu sygnałów dźwiękowych, a główna uwaga została skupiona na problematyce związanej z rozpoznawaniem mowy. Proces powstawania dźwięku oraz jego charakterystyka zostały opisane od strony fizycznej, poprzez reprezentację cyfrową, a na zagadnieniach fonetycznych i psychoakustycznych kończąc. Dodatkowo zaprezentowano sposób tworzenia filtrów cyfrowych i ich użycia. Jest to wielopoziomowe opracowanie schematu powstawania mowy oraz próba wysnucia wniosków, które pozwoliłyby na zaimplementowanie algorytmu automatycznie ją rozpoznającego. Zgromadzona wiedza teoretyczna jest podstawą do stworzenia od podstaw biblioteki w języku C++, służącej do obróbki plików dźwiękowych, głównie w celu dalszego przetwarzania przez zaimplementowany model oparty na leksykonie, który jest aktualnym trendem w dziedzinie rozpoznawania mowy. Architektura zaimplementowanej biblioteki oparta jest na wzorcach projektowych, aby ułatwić jej dalszą rozbudowę. Ostatni rozdział przedstawia autorski pomysł algorytmu rozpoznawania mowy opracowany na podstawie zgromadzonej wiedzy lingwistycznej.
This thesis is focused on the audio signals processing, with particular emphasis on the automatic speech recognition problem. The formation of sound and its characteristic were described from the perspective of physics, digital representation, phonetics and psychoacoustics. Additionally, the process of building and usage of digital filters was presented. The thesis is a complex multilevel description of the speech articulation and an attempt to make some conclusions how to implement the algorithm, solving the problem of automatic speech recognition. The gathered theory is then used to develop a C++ library for the audio files processing, especially as a basis for the implemented model, built on the top of the lexicon, which is a state of the art in the field of speech recognition. The architecture of implemented library is created using design patterns, what allows to extend its functionalities in an easy manner. The last chapter describes author's own concept of a similar algorithm based on the linguistic knowledge.
| dc.abstract.en | This thesis is focused on the audio signals processing, with particular emphasis on the automatic speech recognition problem. The formation of sound and its characteristic were described from the perspective of physics, digital representation, phonetics and psychoacoustics. Additionally, the process of building and usage of digital filters was presented. The thesis is a complex multilevel description of the speech articulation and an attempt to make some conclusions how to implement the algorithm, solving the problem of automatic speech recognition. The gathered theory is then used to develop a C++ library for the audio files processing, especially as a basis for the implemented model, built on the top of the lexicon, which is a state of the art in the field of speech recognition. The architecture of implemented library is created using design patterns, what allows to extend its functionalities in an easy manner. The last chapter describes author's own concept of a similar algorithm based on the linguistic knowledge. | pl |
| dc.abstract.pl | Niniejsza praca poświęcona jest przetwarzaniu sygnałów dźwiękowych, a główna uwaga została skupiona na problematyce związanej z rozpoznawaniem mowy. Proces powstawania dźwięku oraz jego charakterystyka zostały opisane od strony fizycznej, poprzez reprezentację cyfrową, a na zagadnieniach fonetycznych i psychoakustycznych kończąc. Dodatkowo zaprezentowano sposób tworzenia filtrów cyfrowych i ich użycia. Jest to wielopoziomowe opracowanie schematu powstawania mowy oraz próba wysnucia wniosków, które pozwoliłyby na zaimplementowanie algorytmu automatycznie ją rozpoznającego. Zgromadzona wiedza teoretyczna jest podstawą do stworzenia od podstaw biblioteki w języku C++, służącej do obróbki plików dźwiękowych, głównie w celu dalszego przetwarzania przez zaimplementowany model oparty na leksykonie, który jest aktualnym trendem w dziedzinie rozpoznawania mowy. Architektura zaimplementowanej biblioteki oparta jest na wzorcach projektowych, aby ułatwić jej dalszą rozbudowę. Ostatni rozdział przedstawia autorski pomysł algorytmu rozpoznawania mowy opracowany na podstawie zgromadzonej wiedzy lingwistycznej. | pl |
| dc.affiliation | Wydział Matematyki i Informatyki | pl |
| dc.area | obszar nauk ścisłych | pl |
| dc.contributor.advisor | Żelawski, Marcin - 132962 | pl |
| dc.contributor.author | Wenta, Szymon | pl |
| dc.contributor.departmentbycode | UJK/WMI2 | pl |
| dc.contributor.reviewer | Wilczak, Daniel - 132637 | pl |
| dc.contributor.reviewer | Żelawski, Marcin - 132962 | pl |
| dc.date.accessioned | 2020-07-26T12:01:25Z | |
| dc.date.available | 2020-07-26T12:01:25Z | |
| dc.date.submitted | 2015-10-20 | pl |
| dc.fieldofstudy | inżynieria oprogramowania | pl |
| dc.identifier.apd | diploma-95046-126830 | pl |
| dc.identifier.project | APD / O | pl |
| dc.identifier.uri | https://ruj.uj.edu.pl/xmlui/handle/item/202579 | |
| dc.language | pol | pl |
| dc.subject.en | sound, digital signal, Fourier transform, digital filter, FIR, IIR, speech, automatic speech recognition, Hidden Markov Model, Gaussian Mixture Model, HMM, GMM, MFCC, C++ library | pl |
| dc.subject.pl | dźwięk, sygnał cyfrowy, transformacja Fouriera, filtr cyfrowy, FIR, IIR, mowa, rozpoznawanie mowy, ukryte łańcuchy Markowa, Gaussian Mixture Model, HMM, GMM, MFCC, biblioteka C++ | pl |
| dc.title | Biblioteka do wielopoziomowego przetwarzania sygnałów dźwiękowych ze szczególnym uwzględnieniem przetwarzania mowy | pl |
| dc.title.alternative | Multi-level sound processing library with particular emphasis on speech recognition | pl |
| dc.type | master | pl |
| dspace.entity.type | Publication |