Rozpoznawanie mowy z wykorzystaniem sieci neuronowych

master
dc.abstract.enThe master's thesis focuses on the topic of speech recognition, with the first chapter providing an overview of various systems of this type. It discusses the fundamentals of artificial neural networks, deep neural networks, as well as traditional methods of speech recognition, including Hidden Markov Models (HMM) and Gaussian Mixture Models (GMM). Subsequently, traditional systems and neural network-based systems are compared, presenting various neural network architectures for speech recognition. The second chapter focuses on the preprocessing of speech data and feature extraction techniques, such as Mel-frequency cepstral coefficients (MFCC) and gamma-tone filterbank energy (GFE), along with feature normalization and scaling. The third chapter presents the computer tools used in the study, such as Python, PyTorch, and Keras, and provides a detailed description of the implementation of speech recognition using recurrent neural networks (RNN) and convolutional neural networks (CNN).pl
dc.abstract.plPraca magisterska skupia się na tematyce rozpoznawania mowy, przy czym pierwszy rozdział stanowi przegląd różnych systemów tego typu. Omówiono w nim zarówno podstawy sztucznych sieci neuronowych, głębokich sieci neuronowych, jak i tradycyjne metody rozpoznawania mowy, w tym ukryte modele Markowa (HMM) oraz modele mieszanin Gaussowskich (GMM). Następnie porównano systemy tradycyjne i oparte na sieciach neuronowych, przedstawiając różne architektury sieci neuronowych dla rozpoznawania mowy. Drugi rozdział skupia się na wstępnym przetwarzaniu danych mowy oraz technikach ekstrakcji cech, takich jak współczynniki cepstralne częstotliwości Mel (MFCC) i energia banku filtrów gammatonowych (GFE), wraz z normalizacją i skalowaniem cech. Trzeci rozdział prezentuje narzędzia komputerowe wykorzystane w pracy, takie jak Python, PyTorch i Keras, oraz szczegółowy opis projektu realizacji rozpoznawania amowy przy użyciu sieci rekurencyjnych (RNN) i konwolucyjnych sieci neuronowych (CNN).pl
dc.affiliationUniwersytet Jagielloński w Krakowiepl
dc.contributor.advisorUrbańczyk, Tomaszpl
dc.contributor.authorNesterenko, Pavlopl
dc.contributor.departmentbycodeUJK/UJKpl
dc.contributor.reviewerUrbańczyk, Tomaszpl
dc.contributor.reviewerŚlusarczyk, Grażyna - 132324 pl
dc.date.accessioned2023-11-15T21:55:26Z
dc.date.available2023-11-15T21:55:26Z
dc.date.submitted2023-10-23pl
dc.fieldofstudyinformatyka gier komputerowychpl
dc.identifier.apddiploma-170961-296656pl
dc.identifier.urihttps://ruj.uj.edu.pl/xmlui/handle/item/323257
dc.languagepolpl
dc.subject.enSpeech recognition, Artificial neural networks, Deep neural networks, Hidden Markov models (HMM), Gaussian mixture models (GMM), Feed forward neural networks (FFNN), Convolutional neural networks (CNN), Recurrent neural networks (RNN), Long short-term memory (LSTM), Mel frequency cepstral coefficients (MFCC), Gamma filter bank energy (GFE), Feature normalization, Feature scaling, Python, PyTorch, Keras, Speech recognition with RNNs, Speech recognition with CNNs, Neural networks in speech processingpl
dc.subject.plRozpoznawanie mowy, Sztuczne sieci neuronowe, Głębokie sieci neuronowe, Ukryte modele Markowa (HMM), Modele mieszanin Gaussowskich (GMM), Sieci neuronowe typu Feed forward (FFNN), Konwolucyjne sieci neuronowe (CNN), Sieci neuronowe rekurencyjne (RNN), Długie pamięci krótkoterminowe (LSTM), Współczynniki cepstralne częstotliwości Mel (MFCC), Energia banku filtrów gammatonowych (GFE), Normalizacja cech, Skalowanie cech, Python, PyTorch, Keras, Rozpoznawanie mowy za pomocą RNN, Rozpoznawanie mowy za pomocą CNN, Sieci neuronowe w przetwarzaniu mowypl
dc.titleRozpoznawanie mowy z wykorzystaniem sieci neuronowychpl
dc.title.alternativeSpeech recognition using neural networkspl
dc.typemasterpl
dspace.entity.typePublication
dc.abstract.enpl
The master's thesis focuses on the topic of speech recognition, with the first chapter providing an overview of various systems of this type. It discusses the fundamentals of artificial neural networks, deep neural networks, as well as traditional methods of speech recognition, including Hidden Markov Models (HMM) and Gaussian Mixture Models (GMM). Subsequently, traditional systems and neural network-based systems are compared, presenting various neural network architectures for speech recognition. The second chapter focuses on the preprocessing of speech data and feature extraction techniques, such as Mel-frequency cepstral coefficients (MFCC) and gamma-tone filterbank energy (GFE), along with feature normalization and scaling. The third chapter presents the computer tools used in the study, such as Python, PyTorch, and Keras, and provides a detailed description of the implementation of speech recognition using recurrent neural networks (RNN) and convolutional neural networks (CNN).
dc.abstract.plpl
Praca magisterska skupia się na tematyce rozpoznawania mowy, przy czym pierwszy rozdział stanowi przegląd różnych systemów tego typu. Omówiono w nim zarówno podstawy sztucznych sieci neuronowych, głębokich sieci neuronowych, jak i tradycyjne metody rozpoznawania mowy, w tym ukryte modele Markowa (HMM) oraz modele mieszanin Gaussowskich (GMM). Następnie porównano systemy tradycyjne i oparte na sieciach neuronowych, przedstawiając różne architektury sieci neuronowych dla rozpoznawania mowy. Drugi rozdział skupia się na wstępnym przetwarzaniu danych mowy oraz technikach ekstrakcji cech, takich jak współczynniki cepstralne częstotliwości Mel (MFCC) i energia banku filtrów gammatonowych (GFE), wraz z normalizacją i skalowaniem cech. Trzeci rozdział prezentuje narzędzia komputerowe wykorzystane w pracy, takie jak Python, PyTorch i Keras, oraz szczegółowy opis projektu realizacji rozpoznawania amowy przy użyciu sieci rekurencyjnych (RNN) i konwolucyjnych sieci neuronowych (CNN).
dc.affiliationpl
Uniwersytet Jagielloński w Krakowie
dc.contributor.advisorpl
Urbańczyk, Tomasz
dc.contributor.authorpl
Nesterenko, Pavlo
dc.contributor.departmentbycodepl
UJK/UJK
dc.contributor.reviewerpl
Urbańczyk, Tomasz
dc.contributor.reviewerpl
Ślusarczyk, Grażyna - 132324
dc.date.accessioned
2023-11-15T21:55:26Z
dc.date.available
2023-11-15T21:55:26Z
dc.date.submittedpl
2023-10-23
dc.fieldofstudypl
informatyka gier komputerowych
dc.identifier.apdpl
diploma-170961-296656
dc.identifier.uri
https://ruj.uj.edu.pl/xmlui/handle/item/323257
dc.languagepl
pol
dc.subject.enpl
Speech recognition, Artificial neural networks, Deep neural networks, Hidden Markov models (HMM), Gaussian mixture models (GMM), Feed forward neural networks (FFNN), Convolutional neural networks (CNN), Recurrent neural networks (RNN), Long short-term memory (LSTM), Mel frequency cepstral coefficients (MFCC), Gamma filter bank energy (GFE), Feature normalization, Feature scaling, Python, PyTorch, Keras, Speech recognition with RNNs, Speech recognition with CNNs, Neural networks in speech processing
dc.subject.plpl
Rozpoznawanie mowy, Sztuczne sieci neuronowe, Głębokie sieci neuronowe, Ukryte modele Markowa (HMM), Modele mieszanin Gaussowskich (GMM), Sieci neuronowe typu Feed forward (FFNN), Konwolucyjne sieci neuronowe (CNN), Sieci neuronowe rekurencyjne (RNN), Długie pamięci krótkoterminowe (LSTM), Współczynniki cepstralne częstotliwości Mel (MFCC), Energia banku filtrów gammatonowych (GFE), Normalizacja cech, Skalowanie cech, Python, PyTorch, Keras, Rozpoznawanie mowy za pomocą RNN, Rozpoznawanie mowy za pomocą CNN, Sieci neuronowe w przetwarzaniu mowy
dc.titlepl
Rozpoznawanie mowy z wykorzystaniem sieci neuronowych
dc.title.alternativepl
Speech recognition using neural networks
dc.typepl
master
dspace.entity.type
Publication
Affiliations

* The migration of download and view statistics prior to the date of April 8, 2024 is in progress.

Views
96
Views per month
Views per city
Warsaw
22
Krakow
18
Poznan
6
Wroclaw
5
Włoszczowa
5
Bialystok
4
Gdansk
3
Sosnowiec
3
Dobre
2
Rzeszów
2

No access

No Thumbnail Available
Collections