Style-markers in authorship attribution : a cross-language study of the authorial fingerprint

2011
journal article
article
dc.abstract.enThe present study addresses one of the theoretical problems of computer-assisted authorship attribution, namely the question which traceable features of language can betray authorial uniqueness (a stylistic fi ngerprint) of literary texts. A number of recent approaches show that apart from lexical measures - especially those relying on the frequencies of the most frequent words - also some other features of written language are considerably effective as discriminators of authorial style. However, there have been no attempts to compare the attribution potential of these features. The aim of the present study, then, was to examine the effectiveness of several style-markers in authorship attribution. The style-markers chosen for the empirical investigation are those that can be retrieved from a non-lemmatized corpus of plain text files, such as the most frequent words, word bi-grams, different letter sequences, and markers of different nature, combined in one sample. Equally important, however, was to compare usefulness of the chosen style-markers across a few languages: English, Polish, German, and Latin. The results confirmed a high attribution effectiveness of word-based style-markers in the English corpus, but the alternative markers are shown to be usually more effective in the other languages.pl
dc.abstract.plNiniejszy artykuł poświęcony jest jednemu z teoretycznych problemów atrybucji autorskiej opartej o metody ilościowe, mianowicie kwestii, które kategorie językowe zdradzają indywidualny rys autorski (stylistyczny "odcisk palca") w tekstach literackich. Liczne prace powstające w ostatnich latach dowodzą, że oprócz miar leksykalnych - szczególnie tych, które oparte są na częstości wystąpień najczęstszych wyrazów - także inne cechy języka pisanego okazują się stosunkowo silnymi czynnikami różnicującymi styl autorski. Do tej pory nie pojawiły się jednak prace, które próbowałyby porównać atrybucyjne możliwości tych cech językowych z sobą. Celem niniejszego studium było zatem przetestowanie siły dyskryminacyjnej kilku wskaźników stylu w rozpoznawaniu autorów. Do empirycznej analizy wybrano te wskaźniki, które można wyłonić z nielematyzowanego korpusu, tj. ze zwykłych plików tekstowych, takie jak najczęstsze wyrazy, zestawienia dwóch słów, różne połączenia literowe, wreszcie wskaźniki niejednorodne, połączone w jednej próbce. Równie ważne było jednak porównanie przydatności owych wybranych wskaźników stylu w kilku językach: angielskim, polskim, niemieckim i łacińskim. Wyniki potwierdziły wysoką wartość wskaźników leksykalnych w języku angielskim, podczas gdy w innych językach na ogół dokładniejsze okazywały się wskaźniki alternatywne.pl
dc.contributor.authorEder, Maciejpl
dc.date.accession2019-02-13pl
dc.date.accessioned2019-02-13T18:56:34Z
dc.date.available2019-02-13T18:56:34Z
dc.date.issued2011pl
dc.date.openaccess0
dc.description.accesstimew momencie opublikowania
dc.description.additionalBibliogr. s. 113-114pl
dc.description.number1pl
dc.description.physical99-114pl
dc.description.versionostateczna wersja wydawcy
dc.description.volume6pl
dc.identifier.eissn2300-5920pl
dc.identifier.issn1732-8160pl
dc.identifier.projectROD UJ / OPpl
dc.identifier.urihttps://ruj.uj.edu.pl/xmlui/handle/item/68325
dc.identifier.weblinkhttp://www.ejournals.eu/SPL/2011/SPL-vol-6-2011/art/1171/pl
dc.languageengpl
dc.language.containerengpl
dc.rightsUdzielam licencji. Uznanie autorstwa - Użycie niekomercyjne - Na tych samych warunkach 4.0 Międzynarodowa*
dc.rights.licenceCC-BY-NC-SA
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/4.0/legalcode.pl*
dc.share.typeotwarte czasopismo
dc.subject.enauthorship attributionpl
dc.subject.enstylometrypl
dc.subject.enstyle-markerspl
dc.subject.enmultidimensional methodspl
dc.subject.enDelta methodpl
dc.subject.encontrolled attribution testpl
dc.subject.platrybucja autorskapl
dc.subject.plstylometriapl
dc.subject.plwskaźniki stylupl
dc.subject.plmetody wielowymiarowepl
dc.subject.plmetoda Deltapl
dc.subject.plkontrolowany test atrybucyjnypl
dc.subtypeArticlepl
dc.titleStyle-markers in authorship attribution : a cross-language study of the authorial fingerprintpl
dc.title.alternativeWskaźniki stylu w atrybucji autorskiej : studium porównawcze autorskiego "odcisku palca" w kilku językachpl
dc.title.journalStudies in Polish Linguisticspl
dc.typeJournalArticlepl
dspace.entity.typePublication
dc.abstract.enpl
The present study addresses one of the theoretical problems of computer-assisted authorship attribution, namely the question which traceable features of language can betray authorial uniqueness (a stylistic fi ngerprint) of literary texts. A number of recent approaches show that apart from lexical measures - especially those relying on the frequencies of the most frequent words - also some other features of written language are considerably effective as discriminators of authorial style. However, there have been no attempts to compare the attribution potential of these features. The aim of the present study, then, was to examine the effectiveness of several style-markers in authorship attribution. The style-markers chosen for the empirical investigation are those that can be retrieved from a non-lemmatized corpus of plain text files, such as the most frequent words, word bi-grams, different letter sequences, and markers of different nature, combined in one sample. Equally important, however, was to compare usefulness of the chosen style-markers across a few languages: English, Polish, German, and Latin. The results confirmed a high attribution effectiveness of word-based style-markers in the English corpus, but the alternative markers are shown to be usually more effective in the other languages.
dc.abstract.plpl
Niniejszy artykuł poświęcony jest jednemu z teoretycznych problemów atrybucji autorskiej opartej o metody ilościowe, mianowicie kwestii, które kategorie językowe zdradzają indywidualny rys autorski (stylistyczny "odcisk palca") w tekstach literackich. Liczne prace powstające w ostatnich latach dowodzą, że oprócz miar leksykalnych - szczególnie tych, które oparte są na częstości wystąpień najczęstszych wyrazów - także inne cechy języka pisanego okazują się stosunkowo silnymi czynnikami różnicującymi styl autorski. Do tej pory nie pojawiły się jednak prace, które próbowałyby porównać atrybucyjne możliwości tych cech językowych z sobą. Celem niniejszego studium było zatem przetestowanie siły dyskryminacyjnej kilku wskaźników stylu w rozpoznawaniu autorów. Do empirycznej analizy wybrano te wskaźniki, które można wyłonić z nielematyzowanego korpusu, tj. ze zwykłych plików tekstowych, takie jak najczęstsze wyrazy, zestawienia dwóch słów, różne połączenia literowe, wreszcie wskaźniki niejednorodne, połączone w jednej próbce. Równie ważne było jednak porównanie przydatności owych wybranych wskaźników stylu w kilku językach: angielskim, polskim, niemieckim i łacińskim. Wyniki potwierdziły wysoką wartość wskaźników leksykalnych w języku angielskim, podczas gdy w innych językach na ogół dokładniejsze okazywały się wskaźniki alternatywne.
dc.contributor.authorpl
Eder, Maciej
dc.date.accessionpl
2019-02-13
dc.date.accessioned
2019-02-13T18:56:34Z
dc.date.available
2019-02-13T18:56:34Z
dc.date.issuedpl
2011
dc.date.openaccess
0
dc.description.accesstime
w momencie opublikowania
dc.description.additionalpl
Bibliogr. s. 113-114
dc.description.numberpl
1
dc.description.physicalpl
99-114
dc.description.version
ostateczna wersja wydawcy
dc.description.volumepl
6
dc.identifier.eissnpl
2300-5920
dc.identifier.issnpl
1732-8160
dc.identifier.projectpl
ROD UJ / OP
dc.identifier.uri
https://ruj.uj.edu.pl/xmlui/handle/item/68325
dc.identifier.weblinkpl
http://www.ejournals.eu/SPL/2011/SPL-vol-6-2011/art/1171/
dc.languagepl
eng
dc.language.containerpl
eng
dc.rights*
Udzielam licencji. Uznanie autorstwa - Użycie niekomercyjne - Na tych samych warunkach 4.0 Międzynarodowa
dc.rights.licence
CC-BY-NC-SA
dc.rights.uri*
http://creativecommons.org/licenses/by-nc-sa/4.0/legalcode.pl
dc.share.type
otwarte czasopismo
dc.subject.enpl
authorship attribution
dc.subject.enpl
stylometry
dc.subject.enpl
style-markers
dc.subject.enpl
multidimensional methods
dc.subject.enpl
Delta method
dc.subject.enpl
controlled attribution test
dc.subject.plpl
atrybucja autorska
dc.subject.plpl
stylometria
dc.subject.plpl
wskaźniki stylu
dc.subject.plpl
metody wielowymiarowe
dc.subject.plpl
metoda Delta
dc.subject.plpl
kontrolowany test atrybucyjny
dc.subtypepl
Article
dc.titlepl
Style-markers in authorship attribution : a cross-language study of the authorial fingerprint
dc.title.alternativepl
Wskaźniki stylu w atrybucji autorskiej : studium porównawcze autorskiego "odcisku palca" w kilku językach
dc.title.journalpl
Studies in Polish Linguistics
dc.typepl
JournalArticle
dspace.entity.type
Publication
Affiliations

* The migration of download and view statistics prior to the date of April 8, 2024 is in progress.

Views
42
Views per month
Views per city
St Petersburg
5
Rishon LeTsiyyon
4
Amman
2
Atlanta
2
Chongqing
2
Jeddah
2
Ann Arbor
1
Bremen
1
Cairo
1
Cambridge
1
Downloads
eder_style-markers_in_authorship_attribution_a_cross-language_study_2011.odt
107
eder_style-markers_in_authorship_attribution_a_cross-language_study_2011.pdf
93