Success rates in most-frequent-word-based authorship attribution : a case study of 1000 Polish novels from Ignacy Krasicki to Jerzy Pilch

2015
journal article
article
dc.abstract.enThe success rate of authorship attribution by multivariate analysis of most-frequent-word frequencies is studied in a 1000-novel corpus of Polish literary works from the late 18th to the early 21st century. The results are examined for possible influences of the number of authors and/or the number of texts to be attributed. Also, the success rates achieved in this study are compared to those obtained in earlier studies for smaller corpora, too small perhaps to produce regular patterns. This study shows that text sets of this size confirm the intuitive predictions as to those influences: 1) the more authors, the less successful attribution; 2) for the same number of authors, the number of texts to be attributed does not influence success rate.
dc.abstract.plW artykule zbadano skuteczność atrybucji autorskiej opartej na wielowymiarowej analizie najczęstszych słów w korpusie 1000 powieści polskich napisanych między końcem XVIII i początkiem XXI wieku. Oceniono wpływ liczby autorów i/lub tekstów na uzyskane wyniki. Porównano skuteczność atrybucji w niniejszej pracy z wynikami uzyskanymi we wcześniejszych opracowaniach wykorzystujących mniejsze korpusy – a więc te, które mogły nie wykazywać regularnych prawidłowości pod tym względem. Wykazano, że w dużych kolekcjach tekstów sprawdzają się intuicyjne przypuszczenia: 1) im więcej autorów, tym trudniej o skuteczną atrybucję; 2) przy tej samej liczbie autorów liczba tekstów nie ma wpływu na skuteczność atrybucji.pl
dc.affiliationWydział Filologiczny : Instytut Filologii Angielskiejpl
dc.contributor.authorRybicki, Jan - 214316 pl
dc.date.accessioned2016-03-18T15:53:17Z
dc.date.available2016-03-18T15:53:17Z
dc.date.issued2015pl
dc.date.openaccess0
dc.description.accesstimew momencie opublikowania
dc.description.additionalBibliogr. s. 103-104pl
dc.description.number2pl
dc.description.physical87-104pl
dc.description.publication1,2pl
dc.description.versionostateczna wersja wydawcy
dc.description.volume10pl
dc.identifier.doi10.4467/23005920SPL.15.004.3561pl
dc.identifier.eissn2300-5920pl
dc.identifier.issn1732-8160pl
dc.identifier.projectROD UJ / Ppl
dc.identifier.urihttp://ruj.uj.edu.pl/xmlui/handle/item/22676
dc.languageengpl
dc.language.containerengpl
dc.participationRybicki, Jan: 100%;pl
dc.rightsUdzielam licencji. Uznanie autorstwa - Użycie niekomercyjne - Na tych samych warunkach 4.0 Międzynarodowa*
dc.rights.licenceCC-BY-NC-SA
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/4.0/legalcode.pl*
dc.share.typeotwarte czasopismo
dc.subject.enmultivariate analysispl
dc.subject.enauthorship contributionpl
dc.subject.enPolish literaturepl
dc.subject.enstylometrypl
dc.subject.planaliza wielowymiarowapl
dc.subject.platrybucja autorskapl
dc.subject.plliteratura polskapl
dc.subject.plstylometriapl
dc.subtypeArticlepl
dc.titleSuccess rates in most-frequent-word-based authorship attribution : a case study of 1000 Polish novels from Ignacy Krasicki to Jerzy Pilchpl
dc.title.journalStudies in Polish Linguisticspl
dc.typeJournalArticlepl
dspace.entity.typePublication
dc.abstract.en
The success rate of authorship attribution by multivariate analysis of most-frequent-word frequencies is studied in a 1000-novel corpus of Polish literary works from the late 18th to the early 21st century. The results are examined for possible influences of the number of authors and/or the number of texts to be attributed. Also, the success rates achieved in this study are compared to those obtained in earlier studies for smaller corpora, too small perhaps to produce regular patterns. This study shows that text sets of this size confirm the intuitive predictions as to those influences: 1) the more authors, the less successful attribution; 2) for the same number of authors, the number of texts to be attributed does not influence success rate.
dc.abstract.plpl
W artykule zbadano skuteczność atrybucji autorskiej opartej na wielowymiarowej analizie najczęstszych słów w korpusie 1000 powieści polskich napisanych między końcem XVIII i początkiem XXI wieku. Oceniono wpływ liczby autorów i/lub tekstów na uzyskane wyniki. Porównano skuteczność atrybucji w niniejszej pracy z wynikami uzyskanymi we wcześniejszych opracowaniach wykorzystujących mniejsze korpusy – a więc te, które mogły nie wykazywać regularnych prawidłowości pod tym względem. Wykazano, że w dużych kolekcjach tekstów sprawdzają się intuicyjne przypuszczenia: 1) im więcej autorów, tym trudniej o skuteczną atrybucję; 2) przy tej samej liczbie autorów liczba tekstów nie ma wpływu na skuteczność atrybucji.
dc.affiliationpl
Wydział Filologiczny : Instytut Filologii Angielskiej
dc.contributor.authorpl
Rybicki, Jan - 214316
dc.date.accessioned
2016-03-18T15:53:17Z
dc.date.available
2016-03-18T15:53:17Z
dc.date.issuedpl
2015
dc.date.openaccess
0
dc.description.accesstime
w momencie opublikowania
dc.description.additionalpl
Bibliogr. s. 103-104
dc.description.numberpl
2
dc.description.physicalpl
87-104
dc.description.publicationpl
1,2
dc.description.version
ostateczna wersja wydawcy
dc.description.volumepl
10
dc.identifier.doipl
10.4467/23005920SPL.15.004.3561
dc.identifier.eissnpl
2300-5920
dc.identifier.issnpl
1732-8160
dc.identifier.projectpl
ROD UJ / P
dc.identifier.uri
http://ruj.uj.edu.pl/xmlui/handle/item/22676
dc.languagepl
eng
dc.language.containerpl
eng
dc.participationpl
Rybicki, Jan: 100%;
dc.rights*
Udzielam licencji. Uznanie autorstwa - Użycie niekomercyjne - Na tych samych warunkach 4.0 Międzynarodowa
dc.rights.licence
CC-BY-NC-SA
dc.rights.uri*
http://creativecommons.org/licenses/by-nc-sa/4.0/legalcode.pl
dc.share.type
otwarte czasopismo
dc.subject.enpl
multivariate analysis
dc.subject.enpl
authorship contribution
dc.subject.enpl
Polish literature
dc.subject.enpl
stylometry
dc.subject.plpl
analiza wielowymiarowa
dc.subject.plpl
atrybucja autorska
dc.subject.plpl
literatura polska
dc.subject.plpl
stylometria
dc.subtypepl
Article
dc.titlepl
Success rates in most-frequent-word-based authorship attribution : a case study of 1000 Polish novels from Ignacy Krasicki to Jerzy Pilch
dc.title.journalpl
Studies in Polish Linguistics
dc.typepl
JournalArticle
dspace.entity.type
Publication
Affiliations

* The migration of download and view statistics prior to the date of April 8, 2024 is in progress.

Views
3
Views per month
Views per city
Poznan
1
San Jose
1
Warsaw
1
Downloads
rybicki_success_rates_in_most_frequent_word_based_2015.pdf
8
rybicki_success_rates_in_most_frequent_word_based_2015.odt
1