Analiza podobieństwa krótkich tekstów za pomocą algorytmu Vector Space Model
alternative title:
Analysis of similarity of short texts using the Vector Space Model algorithm
author:
Hutsal Andrii
reviewer:
Lubaszewski Wiesław , Konior Jerzy
advisor:
Lubaszewski Wiesław
date of submittion
:
2014-10-29
language:
Polish
abstract in Polish:
Model przestrzeni wektorowej należy do najpopularniejszych sposobów reprezentacji danych dla celów wyznaczenia podobieństwa dokumentów tekstowych. W pracy przedstawiono algorytm stosowany na wszystkich etapach analizy korpusu tekstów, od wstępnego przetwarzania tekstu (preprocesing) i generacji współrzędnych wektorów, aż do właściwego wyszukania podobnych tekstów i ich procentowego dopasowania do zapytania.
abstract in English:
Vector space model is one of the most popular ways to represent data for the purpose of assessing the similarity of text documents. The paper presents the algorithm used in all stages of the analysis of texts, from the pre-processing of text and the generation of coordinate vectors to the proper search of similar texts, and the percentage of their matching to the query.