Simple view
Full metadata view
Authors
Statistics
Application of Machine Learning methods in classification and clustering of music data from AMAZON database
Wykorzystanie metod uczenia maszynowego dla klasyfikacji i grupowania utworów muzycznych na podstawie bazy danych CD dostępnych w systemie Amazon
uczenie maszynowe, klasyfikacja, klastrowanie, regresja logistyczna, sieci neuronowe, perceptron, perceptron wielowarstwowy, MLP, konwolucyjne sieci neuronowe, CNN, k-means, klastrowanie spektralne, mean shift, dekompozycja głównych składowych, SVD, TF-IDF, przetwarzanie języka naturalnego, NLP, Parquet, HDF5, JSON
machine learning, classification, clustering, logistic regression, neural networks, perceptron, multilayer perceptron, MLP, convolutional neural networks, CNN, k-means, spectral clustering, mean shift, singular value decomposition, SVD, TF-IDF, natural language processing, NLP, Parquet, HDF5, JSON
Algorytmy uczenia maszynowego są powszechnie używane przez wiele firm na całym świecie.W mojej pracy licencjackiej opisuję zastosowanie kilku popularnych metod uczenia maszynowego. Dane użyte w tej pracy pochodzą ze zbioru danych z platformy Amazon zawierającej recenzje użytkowników dotyczące albumów muzycznych.Tekstowe oraz binarne formaty plików zostały przetestowane w celu znalezienia jednego oferującego najniższy rozmiar pliku, oraz najszybsze czasy zapisu i odczytu danych. Recenzje użytkowników zostały przetworzone, wykorzystując przetwarzanie języka naturalnego (NLP), a następnie zwektoryzowane z użyciem algorytmu ważenia częstością termów-odwrotną częstością w dokumentach (TF-IDF).W celach klasyfikacji użyta zostala regresja logistyczna i kilka algorytmów bazujących na sieciach neuronowych - perceptronu, perceptronu wielowarstwowego (MLP) oraz konwolucyjnych sieci neuronowych (CNN). Algorytmy zostały użyte w celu analizy sentymentu recenzji użytkowników Amazona, to znaczy do klasyfikacji czy recenzja jest pozytywna, neutralna czy negatywna.Kilka modelów zostało stworzonych, wykorzystując recenzje z różną liczbą słów.Klastrowanie recenzji użytkowników zostało wykonane z użyciem algorytmów K-Means wraz z zaawansowaną metodą wybierania centroidów zwaną K-Means++, klastrowania spektralnego oraz Mean Shift. Celem grupowania recenzji było stworzenie klastrów z jednorodnym rozmieszczeniem recenzji wewnątrz klastrów.
Machine learning algorithms are widely used by many companies around the world.In my thesis I present application of few popular machine learning algorithms for classification and clustering. Data used in this thesis, consisting of users reviews on music albums, comes from Amazon web site.Text and binary file formats were tried out in order to find the one with the lowest file size and the best read and write times. Reviews were preprocessed using Neutral Language Processing (NLP), processed reviews have been later vectorised using Term-Frequency Inverse Term Frequency (TF-IDF) algorithm.For classification, Logistic Regression and some algorithms based on Neural Networks - Perceptron, Multi-Layer Perceptron (MLP) and the Convolutional Neural Networks (CNN) have been applied. The algorithms have been used to analise the sentiment of Amazon users' reviews ie. classifying whether the review is positive, neutral or negative. Several models have been developed using reviews with different numbers of words.The clustering of users' reviews, based on the (TF-IDF) vectors, has been performed using K-Means, with advanced seeding technique called K-Means++, Spectral Clustering and Mean-Shift algorithm. The goal here was to group the data into clusters with uniform number of reviews.
dc.abstract.en | Machine learning algorithms are widely used by many companies around the world.In my thesis I present application of few popular machine learning algorithms for classification and clustering. Data used in this thesis, consisting of users reviews on music albums, comes from Amazon web site.Text and binary file formats were tried out in order to find the one with the lowest file size and the best read and write times. Reviews were preprocessed using Neutral Language Processing (NLP), processed reviews have been later vectorised using Term-Frequency Inverse Term Frequency (TF-IDF) algorithm.For classification, Logistic Regression and some algorithms based on Neural Networks - Perceptron, Multi-Layer Perceptron (MLP) and the Convolutional Neural Networks (CNN) have been applied. The algorithms have been used to analise the sentiment of Amazon users' reviews ie. classifying whether the review is positive, neutral or negative. Several models have been developed using reviews with different numbers of words.The clustering of users' reviews, based on the (TF-IDF) vectors, has been performed using K-Means, with advanced seeding technique called K-Means++, Spectral Clustering and Mean-Shift algorithm. The goal here was to group the data into clusters with uniform number of reviews. | pl |
dc.abstract.pl | Algorytmy uczenia maszynowego są powszechnie używane przez wiele firm na całym świecie.W mojej pracy licencjackiej opisuję zastosowanie kilku popularnych metod uczenia maszynowego. Dane użyte w tej pracy pochodzą ze zbioru danych z platformy Amazon zawierającej recenzje użytkowników dotyczące albumów muzycznych.Tekstowe oraz binarne formaty plików zostały przetestowane w celu znalezienia jednego oferującego najniższy rozmiar pliku, oraz najszybsze czasy zapisu i odczytu danych. Recenzje użytkowników zostały przetworzone, wykorzystując przetwarzanie języka naturalnego (NLP), a następnie zwektoryzowane z użyciem algorytmu ważenia częstością termów-odwrotną częstością w dokumentach (TF-IDF).W celach klasyfikacji użyta zostala regresja logistyczna i kilka algorytmów bazujących na sieciach neuronowych - perceptronu, perceptronu wielowarstwowego (MLP) oraz konwolucyjnych sieci neuronowych (CNN). Algorytmy zostały użyte w celu analizy sentymentu recenzji użytkowników Amazona, to znaczy do klasyfikacji czy recenzja jest pozytywna, neutralna czy negatywna.Kilka modelów zostało stworzonych, wykorzystując recenzje z różną liczbą słów.Klastrowanie recenzji użytkowników zostało wykonane z użyciem algorytmów K-Means wraz z zaawansowaną metodą wybierania centroidów zwaną K-Means++, klastrowania spektralnego oraz Mean Shift. Celem grupowania recenzji było stworzenie klastrów z jednorodnym rozmieszczeniem recenzji wewnątrz klastrów. | pl |
dc.affiliation | Wydział Fizyki, Astronomii i Informatyki Stosowanej | pl |
dc.area | obszar nauk ścisłych | pl |
dc.contributor.advisor | Richter-Wąs, Elżbieta - 131657 | pl |
dc.contributor.author | Lik, Łukasz | pl |
dc.contributor.departmentbycode | UJK/WFAIS | pl |
dc.contributor.reviewer | Richter-Wąs, Elżbieta - 131657 | pl |
dc.contributor.reviewer | Białas, Piotr - 127296 | pl |
dc.date.accessioned | 2020-07-28T07:07:14Z | |
dc.date.available | 2020-07-28T07:07:14Z | |
dc.date.submitted | 2020-07-23 | pl |
dc.fieldofstudy | informatyka | pl |
dc.identifier.apd | diploma-142207-246906 | pl |
dc.identifier.project | APD / O | pl |
dc.identifier.uri | https://ruj.uj.edu.pl/xmlui/handle/item/241602 | |
dc.language | eng | pl |
dc.subject.en | machine learning, classification, clustering, logistic regression, neural networks, perceptron, multilayer perceptron, MLP, convolutional neural networks, CNN, k-means, spectral clustering, mean shift, singular value decomposition, SVD, TF-IDF, natural language processing, NLP, Parquet, HDF5, JSON | pl |
dc.subject.pl | uczenie maszynowe, klasyfikacja, klastrowanie, regresja logistyczna, sieci neuronowe, perceptron, perceptron wielowarstwowy, MLP, konwolucyjne sieci neuronowe, CNN, k-means, klastrowanie spektralne, mean shift, dekompozycja głównych składowych, SVD, TF-IDF, przetwarzanie języka naturalnego, NLP, Parquet, HDF5, JSON | pl |
dc.title | Application of Machine Learning methods in classification and clustering of music data from AMAZON database | pl |
dc.title.alternative | Wykorzystanie metod uczenia maszynowego dla klasyfikacji i grupowania utworów muzycznych na podstawie bazy danych CD dostępnych w systemie Amazon | pl |
dc.type | licenciate | pl |
dspace.entity.type | Publication |