Simple view
Full metadata view
Authors
Statistics
Drzewa klasyfikacyjne z użyciem pakietu R
Decision trees with R.
drzewa klasyfikacyjne, las losowe, klasyfikacja, Indeks Giniego, Entropia
decision trees, random forest, classifier, Gini Index, Entropy
Głównym tematem pracy jest teoria drzew klasyfikacyjnych oraz jej praktyczne wykorzystanie przy analizie danych w programie R. Praca składa się z trzech rozdziałów. W pierwszym rozdziale wprowadzona jest postać danych na których będziemy pracowali oraz zdefiniowane zostaje pojęcia klasyfikatora i problemu klasyfikacyjnego. Drugi rozdział poświęcony jest w pełni drzewom klasyfikacyjnym. Wprowadzony zostaje sposób ich interpretacji przy wykorzystaniu teorii grafów. Zdefiniowane zostaje pojęcie miary różnorodności a także jej dwa przykłady: Entropia, wskaźnik Giniego. Ponadto, podane zostają kryteria stopu oraz kryteria przycinania drzew klasyfikacyjnych. Na końcu rozdziału została wprowadzone pojęcie lasu losowego. W trzecim rozdziale wykorzystana zostaje wprowadzona teoria drzew klasyfikacyjnych i lasu losowego do budowy modelu klasyfikacyjnego z wykorzystaniem programu R. Analiza zostaje przeprowadzona na podstawie dwóch rodzajów danych: bankowych i medycznych.
The main topic of this thesis is theory of decision trees and it's practical use in data mining with R program. It contains three chapters. In the first chapter we introduce in which kind of data set we are going to work, we also formulate definitions of classifier and classification problem. In the second chapter we present a theory regarding builiding of decision trees. A method of their interpretation with the use of graph theory is also introduced. The concept of the impurity measure is defined as well as it's two examples: Entropy and Gini Index. Moreover, stop criteria and prunning criteria of classification trees are provided. At the end of this chapter, the concept of a random forest was described. In the third chapter, the introduced theory of classification trees and random forest is used for build a classification model using R. The analysis was carried out on the banking and medical data.
dc.abstract.en | The main topic of this thesis is theory of decision trees and it's practical use in data mining with R program. It contains three chapters. In the first chapter we introduce in which kind of data set we are going to work, we also formulate definitions of classifier and classification problem. In the second chapter we present a theory regarding builiding of decision trees. A method of their interpretation with the use of graph theory is also introduced. The concept of the impurity measure is defined as well as it's two examples: Entropy and Gini Index. Moreover, stop criteria and prunning criteria of classification trees are provided. At the end of this chapter, the concept of a random forest was described. In the third chapter, the introduced theory of classification trees and random forest is used for build a classification model using R. The analysis was carried out on the banking and medical data. | pl |
dc.abstract.pl | Głównym tematem pracy jest teoria drzew klasyfikacyjnych oraz jej praktyczne wykorzystanie przy analizie danych w programie R. Praca składa się z trzech rozdziałów. W pierwszym rozdziale wprowadzona jest postać danych na których będziemy pracowali oraz zdefiniowane zostaje pojęcia klasyfikatora i problemu klasyfikacyjnego. Drugi rozdział poświęcony jest w pełni drzewom klasyfikacyjnym. Wprowadzony zostaje sposób ich interpretacji przy wykorzystaniu teorii grafów. Zdefiniowane zostaje pojęcie miary różnorodności a także jej dwa przykłady: Entropia, wskaźnik Giniego. Ponadto, podane zostają kryteria stopu oraz kryteria przycinania drzew klasyfikacyjnych. Na końcu rozdziału została wprowadzone pojęcie lasu losowego. W trzecim rozdziale wykorzystana zostaje wprowadzona teoria drzew klasyfikacyjnych i lasu losowego do budowy modelu klasyfikacyjnego z wykorzystaniem programu R. Analiza zostaje przeprowadzona na podstawie dwóch rodzajów danych: bankowych i medycznych. | pl |
dc.affiliation | Wydział Matematyki i Informatyki | pl |
dc.area | obszar nauk ścisłych | pl |
dc.contributor.advisor | Kościelniak, Piotr - 129220 | pl |
dc.contributor.author | Bryła, Jakub | pl |
dc.contributor.departmentbycode | UJK/WMI2 | pl |
dc.contributor.reviewer | Kościelniak, Piotr - 129220 | pl |
dc.contributor.reviewer | Wojtylak, Michał - 147997 | pl |
dc.date.accessioned | 2020-10-21T19:36:18Z | |
dc.date.available | 2020-10-21T19:36:18Z | |
dc.date.submitted | 2020-09-30 | pl |
dc.fieldofstudy | matematyka finansowa | pl |
dc.identifier.apd | diploma-145589-213955 | pl |
dc.identifier.project | APD / O | pl |
dc.identifier.uri | https://ruj.uj.edu.pl/xmlui/handle/item/250513 | |
dc.language | pol | pl |
dc.subject.en | decision trees, random forest, classifier, Gini Index, Entropy | pl |
dc.subject.pl | drzewa klasyfikacyjne, las losowe, klasyfikacja, Indeks Giniego, Entropia | pl |
dc.title | Drzewa klasyfikacyjne z użyciem pakietu R | pl |
dc.title.alternative | Decision trees with R. | pl |
dc.type | master | pl |
dspace.entity.type | Publication |