Tworzenie streszczeń tekstów prawnych z użyciem metod uczenia maszynowego

licenciate
dc.abstract.enThis paper focuses on creating and testing a neural network in order to generate abstractive summaries of legal court cases in English while trying to maintain as much context and meaning as possible. The model is built using an encoder-decoder architecture facilitated by the use of LSTM (Long Short Term Memory) layers. The results show a possible approach to summarizing legal text. The abstractive summary domain exists in an experimental stage and a legal body of text also brings enough peculiarity to disrupt the work of existing solutions. Problems still exist in creating a proper representation of context within the model itself.Many known problems tied to automatic text summarization are also present in the experiments. Most notably the loss of any overarching context when feeding the network long source material. Another spotted issue was related to the decoder tending to endlessly repeat word sequences in its output. Present were also problems more acute to summarizing legal texts: high frequency of legal keywords across the entire dataset, but low density on a per document basis. These words would ordinarily be removed in preprocessing, but their contextual value prohibits that.The main conclusions are that to carry out more effective text generation, the neural model needs more layers with possibly an attention sub-model to better handle issues of lost context. This in turn means the model requires more processing power and longer training times to produce satisfying results.pl
dc.abstract.plNiniejsza praca jest poświęcona stworzeniu i przetestowaniu modelu sieci neuronowej w celu przeprowadzenia abstrakcyjnego streszczenia tekstu wyroku sądowego w języku angielskim z zachowaniem ogólnego znaczenia i kontekstu. Model został zbudowany w strukturze enkoder-dekoder z wykorzystaniem rekurencyjnych warstw „Long Short Term Memory” (LSTM). Wyniki tej pracy pokazują możliwe podejście do streszczania tekstów natury prawnej. Dziedzina abstrakcyjnego streszczania tekstów nadal istnieje w fazie eksperymentalnej a struktura wyroku sądowego stawia dodatkowe wyzwania przy budowaniu stosownej reprezentacji kontekstu wewnątrz modelu. Wiele znanych w powszechnej praktyce problemów w streszczaniu tekstów pojawia się również w przeprowadzanych eksperymentach. Zwłaszcza gubienie kontekstu w długich tekstach źródłowych lub powtarzanie sekwencji słów na wyjściu dekodera. Obecne są również problemy charakterystyczne dla streszczania wyroków w dziedzinie prawa jak wysoka częstotliwość występowania niektórych słów kluczy, rzadko występujących w tekście, ale zbyt ważnych dla kontekstu, aby wyeliminować je w trakcie automatycznej obróbki tekstu.pl
dc.affiliationWydział Fizyki, Astronomii i Informatyki Stosowanejpl
dc.areaobszar nauk ścisłychpl
dc.contributor.advisorMisztal, Krzysztofpl
dc.contributor.authorWasylkowski, Jakubpl
dc.contributor.departmentbycodeUJK/WFAISpl
dc.contributor.reviewerMisztal, Krzysztofpl
dc.contributor.reviewerBiałas, Piotr - 127296 pl
dc.date.accessioned2020-07-28T00:26:44Z
dc.date.available2020-07-28T00:26:44Z
dc.date.submitted2019-07-16pl
dc.fieldofstudyinformatykapl
dc.identifier.apddiploma-133181-163380pl
dc.identifier.projectAPD / Opl
dc.identifier.urihttps://ruj.uj.edu.pl/xmlui/handle/item/235537
dc.languagepolpl
dc.subject.enneural networks, LSTM, summarizing, law, legal, case, abstractive, abstract, training, context, machine learning, neuron, activation function, backpropagation, loss function, optimizers, adam, recursive neural networks, RNN, seq2seq, word embedding, word2vec, glove, preprocessing, natural language processing, NLP, NLTK, anaconda, pyhthon, python3, jupyter, google colab, fitting, experiment, rouge, padding, tokenizingpl
dc.subject.plSieci neuronowe, LSTM, streszczanie, Prawo, wyrok, abstraktywny, abstrakcyjny, trenowanie, kontekst, uczenie maszynowe, neuron, funkcja aktywacyjna, propagacja wsteczna, funkcja straty, algorytmy optymizujące, optymizator, adam, rekurencyjne sieci neuronowe, RNN, seq2seq, word embedding, word2vec, glove, preprocessing, przetwarzanie tekstu, przetwarzanie języka naturalnego, NLP, NLTK, anaconda, python, python3, fitting, eksperyment, google colab, rouge, padding, tokenizingpl
dc.titleTworzenie streszczeń tekstów prawnych z użyciem metod uczenia maszynowegopl
dc.title.alternativeAbstractive summarization of legal court documents using machine learning methodspl
dc.typelicenciatepl
dspace.entity.typePublication
dc.abstract.enpl
This paper focuses on creating and testing a neural network in order to generate abstractive summaries of legal court cases in English while trying to maintain as much context and meaning as possible. The model is built using an encoder-decoder architecture facilitated by the use of LSTM (Long Short Term Memory) layers. The results show a possible approach to summarizing legal text. The abstractive summary domain exists in an experimental stage and a legal body of text also brings enough peculiarity to disrupt the work of existing solutions. Problems still exist in creating a proper representation of context within the model itself.Many known problems tied to automatic text summarization are also present in the experiments. Most notably the loss of any overarching context when feeding the network long source material. Another spotted issue was related to the decoder tending to endlessly repeat word sequences in its output. Present were also problems more acute to summarizing legal texts: high frequency of legal keywords across the entire dataset, but low density on a per document basis. These words would ordinarily be removed in preprocessing, but their contextual value prohibits that.The main conclusions are that to carry out more effective text generation, the neural model needs more layers with possibly an attention sub-model to better handle issues of lost context. This in turn means the model requires more processing power and longer training times to produce satisfying results.
dc.abstract.plpl
Niniejsza praca jest poświęcona stworzeniu i przetestowaniu modelu sieci neuronowej w celu przeprowadzenia abstrakcyjnego streszczenia tekstu wyroku sądowego w języku angielskim z zachowaniem ogólnego znaczenia i kontekstu. Model został zbudowany w strukturze enkoder-dekoder z wykorzystaniem rekurencyjnych warstw „Long Short Term Memory” (LSTM). Wyniki tej pracy pokazują możliwe podejście do streszczania tekstów natury prawnej. Dziedzina abstrakcyjnego streszczania tekstów nadal istnieje w fazie eksperymentalnej a struktura wyroku sądowego stawia dodatkowe wyzwania przy budowaniu stosownej reprezentacji kontekstu wewnątrz modelu. Wiele znanych w powszechnej praktyce problemów w streszczaniu tekstów pojawia się również w przeprowadzanych eksperymentach. Zwłaszcza gubienie kontekstu w długich tekstach źródłowych lub powtarzanie sekwencji słów na wyjściu dekodera. Obecne są również problemy charakterystyczne dla streszczania wyroków w dziedzinie prawa jak wysoka częstotliwość występowania niektórych słów kluczy, rzadko występujących w tekście, ale zbyt ważnych dla kontekstu, aby wyeliminować je w trakcie automatycznej obróbki tekstu.
dc.affiliationpl
Wydział Fizyki, Astronomii i Informatyki Stosowanej
dc.areapl
obszar nauk ścisłych
dc.contributor.advisorpl
Misztal, Krzysztof
dc.contributor.authorpl
Wasylkowski, Jakub
dc.contributor.departmentbycodepl
UJK/WFAIS
dc.contributor.reviewerpl
Misztal, Krzysztof
dc.contributor.reviewerpl
Białas, Piotr - 127296
dc.date.accessioned
2020-07-28T00:26:44Z
dc.date.available
2020-07-28T00:26:44Z
dc.date.submittedpl
2019-07-16
dc.fieldofstudypl
informatyka
dc.identifier.apdpl
diploma-133181-163380
dc.identifier.projectpl
APD / O
dc.identifier.uri
https://ruj.uj.edu.pl/xmlui/handle/item/235537
dc.languagepl
pol
dc.subject.enpl
neural networks, LSTM, summarizing, law, legal, case, abstractive, abstract, training, context, machine learning, neuron, activation function, backpropagation, loss function, optimizers, adam, recursive neural networks, RNN, seq2seq, word embedding, word2vec, glove, preprocessing, natural language processing, NLP, NLTK, anaconda, pyhthon, python3, jupyter, google colab, fitting, experiment, rouge, padding, tokenizing
dc.subject.plpl
Sieci neuronowe, LSTM, streszczanie, Prawo, wyrok, abstraktywny, abstrakcyjny, trenowanie, kontekst, uczenie maszynowe, neuron, funkcja aktywacyjna, propagacja wsteczna, funkcja straty, algorytmy optymizujące, optymizator, adam, rekurencyjne sieci neuronowe, RNN, seq2seq, word embedding, word2vec, glove, preprocessing, przetwarzanie tekstu, przetwarzanie języka naturalnego, NLP, NLTK, anaconda, python, python3, fitting, eksperyment, google colab, rouge, padding, tokenizing
dc.titlepl
Tworzenie streszczeń tekstów prawnych z użyciem metod uczenia maszynowego
dc.title.alternativepl
Abstractive summarization of legal court documents using machine learning methods
dc.typepl
licenciate
dspace.entity.type
Publication
Affiliations

* The migration of download and view statistics prior to the date of April 8, 2024 is in progress.

Views
49
Views per month
Views per city
Warsaw
11
Krakow
6
Lublin
4
Wroclaw
4
Zamość
3
Gdansk
2
Bialystok
1
Bodzentyn
1
Dublin
1
Gliwice
1

No access

No Thumbnail Available