Biblioteka do wielopoziomowego przetwarzania sygnałów dźwiękowych ze szczególnym uwzględnieniem przetwarzania mowy

master
dc.abstract.enThis thesis is focused on the audio signals processing, with particular emphasis on the automatic speech recognition problem. The formation of sound and its characteristic were described from the perspective of physics, digital representation, phonetics and psychoacoustics. Additionally, the process of building and usage of digital filters was presented. The thesis is a complex multilevel description of the speech articulation and an attempt to make some conclusions how to implement the algorithm, solving the problem of automatic speech recognition. The gathered theory is then used to develop a C++ library for the audio files processing, especially as a basis for the implemented model, built on the top of the lexicon, which is a state of the art in the field of speech recognition. The architecture of implemented library is created using design patterns, what allows to extend its functionalities in an easy manner. The last chapter describes author's own concept of a similar algorithm based on the linguistic knowledge.pl
dc.abstract.plNiniejsza praca poświęcona jest przetwarzaniu sygnałów dźwiękowych, a główna uwaga została skupiona na problematyce związanej z rozpoznawaniem mowy. Proces powstawania dźwięku oraz jego charakterystyka zostały opisane od strony fizycznej, poprzez reprezentację cyfrową, a na zagadnieniach fonetycznych i psychoakustycznych kończąc. Dodatkowo zaprezentowano sposób tworzenia filtrów cyfrowych i ich użycia. Jest to wielopoziomowe opracowanie schematu powstawania mowy oraz próba wysnucia wniosków, które pozwoliłyby na zaimplementowanie algorytmu automatycznie ją rozpoznającego. Zgromadzona wiedza teoretyczna jest podstawą do stworzenia od podstaw biblioteki w języku C++, służącej do obróbki plików dźwiękowych, głównie w celu dalszego przetwarzania przez zaimplementowany model oparty na leksykonie, który jest aktualnym trendem w dziedzinie rozpoznawania mowy. Architektura zaimplementowanej biblioteki oparta jest na wzorcach projektowych, aby ułatwić jej dalszą rozbudowę. Ostatni rozdział przedstawia autorski pomysł algorytmu rozpoznawania mowy opracowany na podstawie zgromadzonej wiedzy lingwistycznej.pl
dc.affiliationWydział Matematyki i Informatykipl
dc.areaobszar nauk ścisłychpl
dc.contributor.advisorŻelawski, Marcin - 132962 pl
dc.contributor.authorWenta, Szymonpl
dc.contributor.departmentbycodeUJK/WMI2pl
dc.contributor.reviewerWilczak, Daniel - 132637 pl
dc.contributor.reviewerŻelawski, Marcin - 132962 pl
dc.date.accessioned2020-07-26T12:01:25Z
dc.date.available2020-07-26T12:01:25Z
dc.date.submitted2015-10-20pl
dc.fieldofstudyinżynieria oprogramowaniapl
dc.identifier.apddiploma-95046-126830pl
dc.identifier.projectAPD / Opl
dc.identifier.urihttps://ruj.uj.edu.pl/xmlui/handle/item/202579
dc.languagepolpl
dc.subject.ensound, digital signal, Fourier transform, digital filter, FIR, IIR, speech, automatic speech recognition, Hidden Markov Model, Gaussian Mixture Model, HMM, GMM, MFCC, C++ librarypl
dc.subject.pldźwięk, sygnał cyfrowy, transformacja Fouriera, filtr cyfrowy, FIR, IIR, mowa, rozpoznawanie mowy, ukryte łańcuchy Markowa, Gaussian Mixture Model, HMM, GMM, MFCC, biblioteka C++pl
dc.titleBiblioteka do wielopoziomowego przetwarzania sygnałów dźwiękowych ze szczególnym uwzględnieniem przetwarzania mowypl
dc.title.alternativeMulti-level sound processing library with particular emphasis on speech recognitionpl
dc.typemasterpl
dspace.entity.typePublication
dc.abstract.enpl
This thesis is focused on the audio signals processing, with particular emphasis on the automatic speech recognition problem. The formation of sound and its characteristic were described from the perspective of physics, digital representation, phonetics and psychoacoustics. Additionally, the process of building and usage of digital filters was presented. The thesis is a complex multilevel description of the speech articulation and an attempt to make some conclusions how to implement the algorithm, solving the problem of automatic speech recognition. The gathered theory is then used to develop a C++ library for the audio files processing, especially as a basis for the implemented model, built on the top of the lexicon, which is a state of the art in the field of speech recognition. The architecture of implemented library is created using design patterns, what allows to extend its functionalities in an easy manner. The last chapter describes author's own concept of a similar algorithm based on the linguistic knowledge.
dc.abstract.plpl
Niniejsza praca poświęcona jest przetwarzaniu sygnałów dźwiękowych, a główna uwaga została skupiona na problematyce związanej z rozpoznawaniem mowy. Proces powstawania dźwięku oraz jego charakterystyka zostały opisane od strony fizycznej, poprzez reprezentację cyfrową, a na zagadnieniach fonetycznych i psychoakustycznych kończąc. Dodatkowo zaprezentowano sposób tworzenia filtrów cyfrowych i ich użycia. Jest to wielopoziomowe opracowanie schematu powstawania mowy oraz próba wysnucia wniosków, które pozwoliłyby na zaimplementowanie algorytmu automatycznie ją rozpoznającego. Zgromadzona wiedza teoretyczna jest podstawą do stworzenia od podstaw biblioteki w języku C++, służącej do obróbki plików dźwiękowych, głównie w celu dalszego przetwarzania przez zaimplementowany model oparty na leksykonie, który jest aktualnym trendem w dziedzinie rozpoznawania mowy. Architektura zaimplementowanej biblioteki oparta jest na wzorcach projektowych, aby ułatwić jej dalszą rozbudowę. Ostatni rozdział przedstawia autorski pomysł algorytmu rozpoznawania mowy opracowany na podstawie zgromadzonej wiedzy lingwistycznej.
dc.affiliationpl
Wydział Matematyki i Informatyki
dc.areapl
obszar nauk ścisłych
dc.contributor.advisorpl
Żelawski, Marcin - 132962
dc.contributor.authorpl
Wenta, Szymon
dc.contributor.departmentbycodepl
UJK/WMI2
dc.contributor.reviewerpl
Wilczak, Daniel - 132637
dc.contributor.reviewerpl
Żelawski, Marcin - 132962
dc.date.accessioned
2020-07-26T12:01:25Z
dc.date.available
2020-07-26T12:01:25Z
dc.date.submittedpl
2015-10-20
dc.fieldofstudypl
inżynieria oprogramowania
dc.identifier.apdpl
diploma-95046-126830
dc.identifier.projectpl
APD / O
dc.identifier.uri
https://ruj.uj.edu.pl/xmlui/handle/item/202579
dc.languagepl
pol
dc.subject.enpl
sound, digital signal, Fourier transform, digital filter, FIR, IIR, speech, automatic speech recognition, Hidden Markov Model, Gaussian Mixture Model, HMM, GMM, MFCC, C++ library
dc.subject.plpl
dźwięk, sygnał cyfrowy, transformacja Fouriera, filtr cyfrowy, FIR, IIR, mowa, rozpoznawanie mowy, ukryte łańcuchy Markowa, Gaussian Mixture Model, HMM, GMM, MFCC, biblioteka C++
dc.titlepl
Biblioteka do wielopoziomowego przetwarzania sygnałów dźwiękowych ze szczególnym uwzględnieniem przetwarzania mowy
dc.title.alternativepl
Multi-level sound processing library with particular emphasis on speech recognition
dc.typepl
master
dspace.entity.type
Publication
Affiliations

* The migration of download and view statistics prior to the date of April 8, 2024 is in progress.

Views
36
Views per month
Views per city
Bend
6
Los Angeles
4
Frankfurt am Main
3
Bialystok
2
Boston
2
Dublin
2
Krakow
2
Vitry-sur-Seine
2
Warsaw
2
Wroclaw
2

No access

No Thumbnail Available