Simple view
Full metadata view
Authors
Statistics
Rozpoznawanie mowy z wykorzystaniem sieci neuronowych
Speech recognition using neural networks
Rozpoznawanie mowy, Sztuczne sieci neuronowe, Głębokie sieci neuronowe, Ukryte modele Markowa (HMM), Modele mieszanin Gaussowskich (GMM), Sieci neuronowe typu Feed forward (FFNN), Konwolucyjne sieci neuronowe (CNN), Sieci neuronowe rekurencyjne (RNN), Długie pamięci krótkoterminowe (LSTM), Współczynniki cepstralne częstotliwości Mel (MFCC), Energia banku filtrów gammatonowych (GFE), Normalizacja cech, Skalowanie cech, Python, PyTorch, Keras, Rozpoznawanie mowy za pomocą RNN, Rozpoznawanie mowy za pomocą CNN, Sieci neuronowe w przetwarzaniu mowy
Speech recognition, Artificial neural networks, Deep neural networks, Hidden Markov models (HMM), Gaussian mixture models (GMM), Feed forward neural networks (FFNN), Convolutional neural networks (CNN), Recurrent neural networks (RNN), Long short-term memory (LSTM), Mel frequency cepstral coefficients (MFCC), Gamma filter bank energy (GFE), Feature normalization, Feature scaling, Python, PyTorch, Keras, Speech recognition with RNNs, Speech recognition with CNNs, Neural networks in speech processing
Praca magisterska skupia się na tematyce rozpoznawania mowy, przy czym pierwszy rozdział stanowi przegląd różnych systemów tego typu. Omówiono w nim zarówno podstawy sztucznych sieci neuronowych, głębokich sieci neuronowych, jak i tradycyjne metody rozpoznawania mowy, w tym ukryte modele Markowa (HMM) oraz modele mieszanin Gaussowskich (GMM). Następnie porównano systemy tradycyjne i oparte na sieciach neuronowych, przedstawiając różne architektury sieci neuronowych dla rozpoznawania mowy. Drugi rozdział skupia się na wstępnym przetwarzaniu danych mowy oraz technikach ekstrakcji cech, takich jak współczynniki cepstralne częstotliwości Mel (MFCC) i energia banku filtrów gammatonowych (GFE), wraz z normalizacją i skalowaniem cech. Trzeci rozdział prezentuje narzędzia komputerowe wykorzystane w pracy, takie jak Python, PyTorch i Keras, oraz szczegółowy opis projektu realizacji rozpoznawania amowy przy użyciu sieci rekurencyjnych (RNN) i konwolucyjnych sieci neuronowych (CNN).
The master's thesis focuses on the topic of speech recognition, with the first chapter providing an overview of various systems of this type. It discusses the fundamentals of artificial neural networks, deep neural networks, as well as traditional methods of speech recognition, including Hidden Markov Models (HMM) and Gaussian Mixture Models (GMM). Subsequently, traditional systems and neural network-based systems are compared, presenting various neural network architectures for speech recognition. The second chapter focuses on the preprocessing of speech data and feature extraction techniques, such as Mel-frequency cepstral coefficients (MFCC) and gamma-tone filterbank energy (GFE), along with feature normalization and scaling. The third chapter presents the computer tools used in the study, such as Python, PyTorch, and Keras, and provides a detailed description of the implementation of speech recognition using recurrent neural networks (RNN) and convolutional neural networks (CNN).
dc.abstract.en | The master's thesis focuses on the topic of speech recognition, with the first chapter providing an overview of various systems of this type. It discusses the fundamentals of artificial neural networks, deep neural networks, as well as traditional methods of speech recognition, including Hidden Markov Models (HMM) and Gaussian Mixture Models (GMM). Subsequently, traditional systems and neural network-based systems are compared, presenting various neural network architectures for speech recognition. The second chapter focuses on the preprocessing of speech data and feature extraction techniques, such as Mel-frequency cepstral coefficients (MFCC) and gamma-tone filterbank energy (GFE), along with feature normalization and scaling. The third chapter presents the computer tools used in the study, such as Python, PyTorch, and Keras, and provides a detailed description of the implementation of speech recognition using recurrent neural networks (RNN) and convolutional neural networks (CNN). | pl |
dc.abstract.pl | Praca magisterska skupia się na tematyce rozpoznawania mowy, przy czym pierwszy rozdział stanowi przegląd różnych systemów tego typu. Omówiono w nim zarówno podstawy sztucznych sieci neuronowych, głębokich sieci neuronowych, jak i tradycyjne metody rozpoznawania mowy, w tym ukryte modele Markowa (HMM) oraz modele mieszanin Gaussowskich (GMM). Następnie porównano systemy tradycyjne i oparte na sieciach neuronowych, przedstawiając różne architektury sieci neuronowych dla rozpoznawania mowy. Drugi rozdział skupia się na wstępnym przetwarzaniu danych mowy oraz technikach ekstrakcji cech, takich jak współczynniki cepstralne częstotliwości Mel (MFCC) i energia banku filtrów gammatonowych (GFE), wraz z normalizacją i skalowaniem cech. Trzeci rozdział prezentuje narzędzia komputerowe wykorzystane w pracy, takie jak Python, PyTorch i Keras, oraz szczegółowy opis projektu realizacji rozpoznawania amowy przy użyciu sieci rekurencyjnych (RNN) i konwolucyjnych sieci neuronowych (CNN). | pl |
dc.affiliation | Uniwersytet Jagielloński w Krakowie | pl |
dc.contributor.advisor | Urbańczyk, Tomasz | pl |
dc.contributor.author | Nesterenko, Pavlo | pl |
dc.contributor.departmentbycode | UJK/UJK | pl |
dc.contributor.reviewer | Urbańczyk, Tomasz | pl |
dc.contributor.reviewer | Ślusarczyk, Grażyna - 132324 | pl |
dc.date.accessioned | 2023-11-15T21:55:26Z | |
dc.date.available | 2023-11-15T21:55:26Z | |
dc.date.submitted | 2023-10-23 | pl |
dc.fieldofstudy | informatyka gier komputerowych | pl |
dc.identifier.apd | diploma-170961-296656 | pl |
dc.identifier.uri | https://ruj.uj.edu.pl/xmlui/handle/item/323257 | |
dc.language | pol | pl |
dc.subject.en | Speech recognition, Artificial neural networks, Deep neural networks, Hidden Markov models (HMM), Gaussian mixture models (GMM), Feed forward neural networks (FFNN), Convolutional neural networks (CNN), Recurrent neural networks (RNN), Long short-term memory (LSTM), Mel frequency cepstral coefficients (MFCC), Gamma filter bank energy (GFE), Feature normalization, Feature scaling, Python, PyTorch, Keras, Speech recognition with RNNs, Speech recognition with CNNs, Neural networks in speech processing | pl |
dc.subject.pl | Rozpoznawanie mowy, Sztuczne sieci neuronowe, Głębokie sieci neuronowe, Ukryte modele Markowa (HMM), Modele mieszanin Gaussowskich (GMM), Sieci neuronowe typu Feed forward (FFNN), Konwolucyjne sieci neuronowe (CNN), Sieci neuronowe rekurencyjne (RNN), Długie pamięci krótkoterminowe (LSTM), Współczynniki cepstralne częstotliwości Mel (MFCC), Energia banku filtrów gammatonowych (GFE), Normalizacja cech, Skalowanie cech, Python, PyTorch, Keras, Rozpoznawanie mowy za pomocą RNN, Rozpoznawanie mowy za pomocą CNN, Sieci neuronowe w przetwarzaniu mowy | pl |
dc.title | Rozpoznawanie mowy z wykorzystaniem sieci neuronowych | pl |
dc.title.alternative | Speech recognition using neural networks | pl |
dc.type | master | pl |
dspace.entity.type | Publication |