Application of Machine Learning methods in classification and clustering of music data from AMAZON database

licenciate
dc.abstract.enMachine learning algorithms are widely used by many companies around the world.In my thesis I present application of few popular machine learning algorithms for classification and clustering. Data used in this thesis, consisting of users reviews on music albums, comes from Amazon web site.Text and binary file formats were tried out in order to find the one with the lowest file size and the best read and write times. Reviews were preprocessed using Neutral Language Processing (NLP), processed reviews have been later vectorised using Term-Frequency Inverse Term Frequency (TF-IDF) algorithm.For classification, Logistic Regression and some algorithms based on Neural Networks - Perceptron, Multi-Layer Perceptron (MLP) and the Convolutional Neural Networks (CNN) have been applied. The algorithms have been used to analise the sentiment of Amazon users' reviews ie. classifying whether the review is positive, neutral or negative. Several models have been developed using reviews with different numbers of words.The clustering of users' reviews, based on the (TF-IDF) vectors, has been performed using K-Means, with advanced seeding technique called K-Means++, Spectral Clustering and Mean-Shift algorithm. The goal here was to group the data into clusters with uniform number of reviews.pl
dc.abstract.plAlgorytmy uczenia maszynowego są powszechnie używane przez wiele firm na całym świecie.W mojej pracy licencjackiej opisuję zastosowanie kilku popularnych metod uczenia maszynowego. Dane użyte w tej pracy pochodzą ze zbioru danych z platformy Amazon zawierającej recenzje użytkowników dotyczące albumów muzycznych.Tekstowe oraz binarne formaty plików zostały przetestowane w celu znalezienia jednego oferującego najniższy rozmiar pliku, oraz najszybsze czasy zapisu i odczytu danych. Recenzje użytkowników zostały przetworzone, wykorzystując przetwarzanie języka naturalnego (NLP), a następnie zwektoryzowane z użyciem algorytmu ważenia częstością termów-odwrotną częstością w dokumentach (TF-IDF).W celach klasyfikacji użyta zostala regresja logistyczna i kilka algorytmów bazujących na sieciach neuronowych - perceptronu, perceptronu wielowarstwowego (MLP) oraz konwolucyjnych sieci neuronowych (CNN). Algorytmy zostały użyte w celu analizy sentymentu recenzji użytkowników Amazona, to znaczy do klasyfikacji czy recenzja jest pozytywna, neutralna czy negatywna.Kilka modelów zostało stworzonych, wykorzystując recenzje z różną liczbą słów.Klastrowanie recenzji użytkowników zostało wykonane z użyciem algorytmów K-Means wraz z zaawansowaną metodą wybierania centroidów zwaną K-Means++, klastrowania spektralnego oraz Mean Shift. Celem grupowania recenzji było stworzenie klastrów z jednorodnym rozmieszczeniem recenzji wewnątrz klastrów.pl
dc.affiliationWydział Fizyki, Astronomii i Informatyki Stosowanejpl
dc.areaobszar nauk ścisłychpl
dc.contributor.advisorRichter-Wąs, Elżbieta - 131657 pl
dc.contributor.authorLik, Łukaszpl
dc.contributor.departmentbycodeUJK/WFAISpl
dc.contributor.reviewerRichter-Wąs, Elżbieta - 131657 pl
dc.contributor.reviewerBiałas, Piotr - 127296 pl
dc.date.accessioned2020-07-28T07:07:14Z
dc.date.available2020-07-28T07:07:14Z
dc.date.submitted2020-07-23pl
dc.fieldofstudyinformatykapl
dc.identifier.apddiploma-142207-246906pl
dc.identifier.projectAPD / Opl
dc.identifier.urihttps://ruj.uj.edu.pl/xmlui/handle/item/241602
dc.languageengpl
dc.subject.enmachine learning, classification, clustering, logistic regression, neural networks, perceptron, multilayer perceptron, MLP, convolutional neural networks, CNN, k-means, spectral clustering, mean shift, singular value decomposition, SVD, TF-IDF, natural language processing, NLP, Parquet, HDF5, JSONpl
dc.subject.pluczenie maszynowe, klasyfikacja, klastrowanie, regresja logistyczna, sieci neuronowe, perceptron, perceptron wielowarstwowy, MLP, konwolucyjne sieci neuronowe, CNN, k-means, klastrowanie spektralne, mean shift, dekompozycja głównych składowych, SVD, TF-IDF, przetwarzanie języka naturalnego, NLP, Parquet, HDF5, JSONpl
dc.titleApplication of Machine Learning methods in classification and clustering of music data from AMAZON databasepl
dc.title.alternativeWykorzystanie metod uczenia maszynowego dla klasyfikacji i grupowania utworów muzycznych na podstawie bazy danych CD dostępnych w systemie Amazonpl
dc.typelicenciatepl
dspace.entity.typePublication
dc.abstract.enpl
Machine learning algorithms are widely used by many companies around the world.In my thesis I present application of few popular machine learning algorithms for classification and clustering. Data used in this thesis, consisting of users reviews on music albums, comes from Amazon web site.Text and binary file formats were tried out in order to find the one with the lowest file size and the best read and write times. Reviews were preprocessed using Neutral Language Processing (NLP), processed reviews have been later vectorised using Term-Frequency Inverse Term Frequency (TF-IDF) algorithm.For classification, Logistic Regression and some algorithms based on Neural Networks - Perceptron, Multi-Layer Perceptron (MLP) and the Convolutional Neural Networks (CNN) have been applied. The algorithms have been used to analise the sentiment of Amazon users' reviews ie. classifying whether the review is positive, neutral or negative. Several models have been developed using reviews with different numbers of words.The clustering of users' reviews, based on the (TF-IDF) vectors, has been performed using K-Means, with advanced seeding technique called K-Means++, Spectral Clustering and Mean-Shift algorithm. The goal here was to group the data into clusters with uniform number of reviews.
dc.abstract.plpl
Algorytmy uczenia maszynowego są powszechnie używane przez wiele firm na całym świecie.W mojej pracy licencjackiej opisuję zastosowanie kilku popularnych metod uczenia maszynowego. Dane użyte w tej pracy pochodzą ze zbioru danych z platformy Amazon zawierającej recenzje użytkowników dotyczące albumów muzycznych.Tekstowe oraz binarne formaty plików zostały przetestowane w celu znalezienia jednego oferującego najniższy rozmiar pliku, oraz najszybsze czasy zapisu i odczytu danych. Recenzje użytkowników zostały przetworzone, wykorzystując przetwarzanie języka naturalnego (NLP), a następnie zwektoryzowane z użyciem algorytmu ważenia częstością termów-odwrotną częstością w dokumentach (TF-IDF).W celach klasyfikacji użyta zostala regresja logistyczna i kilka algorytmów bazujących na sieciach neuronowych - perceptronu, perceptronu wielowarstwowego (MLP) oraz konwolucyjnych sieci neuronowych (CNN). Algorytmy zostały użyte w celu analizy sentymentu recenzji użytkowników Amazona, to znaczy do klasyfikacji czy recenzja jest pozytywna, neutralna czy negatywna.Kilka modelów zostało stworzonych, wykorzystując recenzje z różną liczbą słów.Klastrowanie recenzji użytkowników zostało wykonane z użyciem algorytmów K-Means wraz z zaawansowaną metodą wybierania centroidów zwaną K-Means++, klastrowania spektralnego oraz Mean Shift. Celem grupowania recenzji było stworzenie klastrów z jednorodnym rozmieszczeniem recenzji wewnątrz klastrów.
dc.affiliationpl
Wydział Fizyki, Astronomii i Informatyki Stosowanej
dc.areapl
obszar nauk ścisłych
dc.contributor.advisorpl
Richter-Wąs, Elżbieta - 131657
dc.contributor.authorpl
Lik, Łukasz
dc.contributor.departmentbycodepl
UJK/WFAIS
dc.contributor.reviewerpl
Richter-Wąs, Elżbieta - 131657
dc.contributor.reviewerpl
Białas, Piotr - 127296
dc.date.accessioned
2020-07-28T07:07:14Z
dc.date.available
2020-07-28T07:07:14Z
dc.date.submittedpl
2020-07-23
dc.fieldofstudypl
informatyka
dc.identifier.apdpl
diploma-142207-246906
dc.identifier.projectpl
APD / O
dc.identifier.uri
https://ruj.uj.edu.pl/xmlui/handle/item/241602
dc.languagepl
eng
dc.subject.enpl
machine learning, classification, clustering, logistic regression, neural networks, perceptron, multilayer perceptron, MLP, convolutional neural networks, CNN, k-means, spectral clustering, mean shift, singular value decomposition, SVD, TF-IDF, natural language processing, NLP, Parquet, HDF5, JSON
dc.subject.plpl
uczenie maszynowe, klasyfikacja, klastrowanie, regresja logistyczna, sieci neuronowe, perceptron, perceptron wielowarstwowy, MLP, konwolucyjne sieci neuronowe, CNN, k-means, klastrowanie spektralne, mean shift, dekompozycja głównych składowych, SVD, TF-IDF, przetwarzanie języka naturalnego, NLP, Parquet, HDF5, JSON
dc.titlepl
Application of Machine Learning methods in classification and clustering of music data from AMAZON database
dc.title.alternativepl
Wykorzystanie metod uczenia maszynowego dla klasyfikacji i grupowania utworów muzycznych na podstawie bazy danych CD dostępnych w systemie Amazon
dc.typepl
licenciate
dspace.entity.type
Publication
Affiliations

* The migration of download and view statistics prior to the date of April 8, 2024 is in progress.

Views
58
Views per month
Views per city
Warsaw
11
Warwick
7
Merced
5
Wroclaw
5
Lisbon
3
Mechelen
2
Pilāni
2
Vancouver
2
Bialystok
1
Brisbane
1

No access

No Thumbnail Available