Help

Dane badawcze

Uniwersytet Jagielloński wprowadził możliwość deponowania otwartych danych badawczych na platformie Repozytorium Uniwersytetu Jagiellońskiego.

 

Dane badawcze (Research Data) – są to zebrane, w wyniku zastosowania różnych technik badawczych, materiały o charakterze faktograficznym (w postaci liczbowej, tekstowej, graficznej czy dźwiękowej), uznawane przez społeczność naukową za niezbędne do oceny wyników badań naukowych. 
Powszechnie wyróżnia się dane badawcze surowe, nieprzeanalizowane, czyli takie, które uzyskano bezpośrednio w wyniku zastosowania narzędzia badawczego, w różnych przedsięwzięciach naukowych lub też zgromadzone na potrzeby konkretnych projektów oraz dane, które poddane zostały obróbce.

Deponować można dane ze wszystkich obszarów wiedzy, które zostały wytworzone, zebrane lub opisane na potrzeby działalności badawczej. Zakres danych umieszczonych w jednym zbiorze przeznaczonym do deponowania ustala autor. 

Gromadzenie, przetwarzanie, przechowywanie, ochrona i udostępnianie danych badawczych wiąże się z szeregiem działań, które należy zaplanować by właściwie nimi zarządzać. Coraz częściej już na etapie składania i oceny wniosków grantowych naukowcy muszą przedstawić przed instytucją finansującą badania naukowe plan zarządzania danymi -  DMP (Data Management Plan), który określa sposób zarządzania danymi badawczymi zarówno podczas projektu badawczego, jak i po jego zakończeniu. Poniżej opisano główne obszary działań, jakie należy przeanalizować przygotowując plan zarządzania danymi.

Rodzaje zbieranych danych

Rodzaje gromadzonych danych są bardzo różnorodne. Zależne od dziedziny nauki oraz przyjętej metodologii badań. Są to m.in.:
• Dokumenty tekstowe, notatki
• Dane liczbowe
• Kwestionariusze, ankiety, wyniki badań ankietowych
• Nagrania audio i video, zdjęcia
• Zawartość baz danych (video, audio, teksty, obrazy)
• Modele matematyczne, algorytmy
• Oprogramowanie (skrypty, pliki wejściowe…)
• Wyniki symulacji komputerowych
• Protokoły laboratoryjne, opisy metodologiczne
• próbki, artefakty, obiekty*
Kwestią wartą przemyślenia są typy danych, sposób ich gromadzenia i/lub przetwarzania, ilość i częstotliwość występowania. 

Formaty plików mogą być dowolne, jednak dbając o powszechny dostęp i otwartość, dobrze korzystać z formatów, które nie wymagają komercyjnego oprogramowania do odczytu danych. W jednym opisie można dodać wiele plików. Jeżeli plików jest dużo dobrym rozwiązaniem jest ich pogrupowanie i spakowanie, np. do postaci .zip. Należy także dobrze przemyśleć nazewnictwo plików. Odpowiednio nazwany plik/zbiór plików może znacząco ułatwić użytkownikowi korzystanie z danych. Wszystkie te elementy składają się na późniejsze efektywnie wykorzystanie danych we właściwym kontekście.

Metadane i dokumentacja

Dokumentacja powinna opisywać metodologię prowadzonych badań oraz ich kontekst i źródło. Informuje o sposobie organizacji danych w trakcie projektu np. przyjętej konwencji, wersji i strukturze folderów. Często zawiera także dodatkowe pliki potrzebne do skorzystania z danych (np. skrypty) czy wykorzystane standardowe słowniki. Można utworzyć osobny plik ReadMe.txt. Jeżeli istnieje już publikacja naukowa, w której opisana jest dokumentacja badawcza, należy podać odnośnik do niej w polu adres URL.

Metadane umożliwiają nam scharakteryzowanie danych badawczych, tak by potencjalny użytkownik wiedział jakiego rodzaju są to dane. Metadane charakteryzują opis całego zbioru danych (autor, tytuł, data powstania, licencja, dyscyplina naukowa etc.). Dane badawcze muszą być udostępnione wraz z ich metadanymi.

Dane badawcze w RUJ można opisać z wykorzystaniem dedykowanych pól: 
Opis, w którym osoba wprowadzająca dane badawcze powinna krótko scharakteryzować ich zawartość, pochodzenie, stosowane metody badawcze, kontekst badań i inne.
Zakres czasowy: należy podać datę początkową i datę końcową określającą czas prowadzonych badań, który często jest tożsamy z okresem trwania grantu.
Dostawca danych: dla danych zdeponowanych w RUJ należy wskazać Repozytorium Uniwersytetu Jagiellońskiego.
Obszar badań: należy wskazać Dziedzinę nauki/sztuki z zawężeniem do Dyscypliny naukowej/artystycznej. Wyboru dokonujemy spośród klasyfikacji dziedzin nauki i dyscyplin naukowych oraz dyscyplin artystycznych wskazanych w Rozporządzeniu Ministra Nauki i Szkolnictwa Wyższego z dnia 20 września 2018 r.
Dla danych, co do których przewiduje się uaktualnienia czy rozszerzenia przewidziano w RUJ możliwość wersjonowania danych badawczych. Wersjonowanie będzie odzwierciedlone z użyciem pól: wersjapowiązania oraz DOI. W polu wersja osoba wprowadzająca opis powinna wskazać wersję danych badawczych (tj. nadać numer np. 1.0 , 1.0.0). 
Podczas deponowania pierwszej wersji danych, na etapie weryfikacji w BJ, nadane zostaną dwa numery DOI: jeden dla wersji i drugi dla koncepcji. Deponując kolejne wersje danych badawczych należy określić nowy numer wersji (pole wersja) oraz podać numer DOI dla koncepcji (pole powiązań). Podanie numeru DOI dla koncepcji w kolejnych wersjach danych badawczych jest bardzo ważne ponieważ wskazuje na zależności pomiędzy nimi i pozwoli administratorom RUJ na prawidłowe powiązanie rekordów. Można także dodać w opisie Uwagę, że jest to kolejna wersja opublikowanych już danych badawczych. 
Przykładowo prawidłowo zatwierdzony opis dla wersji drugiej danych badawczych powinien wyglądać następująco:

wersje.jpg

Przechowywanie i bezpieczeństwo danych

Kwestię bezpieczeństwa oraz przechowywania danych należy gruntownie przemyśleć dla całego procesu gromadzenia i ewentualnego przetwarzania danych badawczych. Należy przeanalizować kwestię dostępu do danych (szczególnie jeżeli zawierają dane wrażliwe), by zapobiec niewłaściwemu dostępowi do poufnych danych. Konieczne jest też opracowanie planu tworzenia kopii zapasowych, by zapobiec utracie danych w wyniku np. awarii sprzętu.

Ochrona danych (dane wrażliwe, dane chronione prawem autorskim)

Dane wrażliwe to dane ujawniające pochodzenie rasowe lub etniczne, poglądy polityczne, przekonania religijne lub światopoglądowe, przynależność do związków zawodowych oraz dane genetyczne, dane biometryczne jednoznacznie identyfikujące osoby fizyczne lub dane dotyczące zdrowia, seksualności lub orientacji seksualnej tej osoby. 
Jeżeli badania zakładają gromadzenie i/lub przetwarzanie danych wrażliwych konieczne jest przemyślenie ich właściwej ochrony. Uniwersytet Jagielloński wdrożył politykę ochrony danych wrażliwych i oraz powołał Inspektora Ochrony Danych do jej przestrzegania. Pomoże on także w opracowaniu planu zarządzania danymi, który rozwiąże wszelkie potencjalne problemy związane z prywatnością lub prawem. Zobacz: https://iod.uj.edu.pl.

Dostęp i ponowne użycie danych badawczych

Zapewnienie dostępu do danych badawczych polega na ich udostępnieniu oraz opisaniu. Należy określić kiedy dane zostaną udostępnione (czy w trakcie trwania, czy po zakończeniu badań, należy podać termin lub terminy udostępnienia) oraz czy dostęp będzie pełny czy ograniczony (w tym przypadku należy wskazać ograniczenia i przeszkody uniemożliwiające ich pełne/częściowe udostępnienie). Repozytorium Uniwersytetu Jagiellońskiego umożliwia zarówno dostęp w trybie open access, jak też limitowany.
Ponowne użycie danych badawczych w innym kontekście będzie zapewnione poprzez zastosowanie unikalnego i trwale przypisanego identyfikatora. Trwały identyfikator, w postaci DOI, zostanie nadany przez administratora RUJ w momencie zdeponowania danych przez autora (nadane zostaną dwa numery DOI: jeden dla wersji i drugi dla koncepcji. Numer DOI dla koncepcji będzie służył powiązaniu kolejnych wersji danych badawczych). DOI pozwala na lokalizację danych oraz na łatwe śledzenie cytowań i dalsze, wielokrotne użycie.

Długoterminowa archiwizacja danych badawczych

Długoterminowa archiwizacja to przechowywanie danych badawczych w dłuższym okresie czasu. W planie zarządzania danymi należy uwzględnić gdzie bedą przechowywane dane. W przypadku wyboru instytucji zewnętrznej, która udostępnia repozytorium danych badawczych, istotne jest uwzględnienie m. in.: czy posiada plan przechowywania danych w dłuższym okresie czasu, czy pliki, w których są zapisane dane, można opisać metadanymi, kto jest odpowiedzialny za dostęp do danych np. za 10 lub 15 lat oraz kto finansuje repozytorium i jakie są warunki przechowywania.

Repozytorium Uniwersytetu Jagiellońskiego zapewnia długotrwałe archiwizowanie zdeponowanych danych na serwerach uniwersyteckich zarządzanych przez Centrum Rozwoju Systemów Zintegrowanych Uniwersytetu Jagiellońskiego. Bezpieczeństwo danych jest także zapewnione poprzez wykonywanie regularnych kopii roboczych.

Repozytorium Uniwersytetu Jagielońskiego spełnia zasady FAIR Data, które w rozwinięciu oznaczają:

  • Findable - łatwo znajdowane i wyszukiwane.
  • Accessible - dostępne dla wszystkich.
  • Interoperable - interoperacyjne, tak aby można było je połączyć z innymi danymi.
  • Reusable - wielokrotnego użytku.

Zasady FAIR Data służą jako wytyczne dla umożliwienia ponownego wykorzystania danych naukowych w wyraźnie opisanych warunkach, zarówno przez ludzi, jak i przez maszyny. Więcej o FAIR Data zobacz tutaj.

Prawa autorskie i licencje

Należy wskazać właścicieli praw autorskich i praw własności intelektualnej do wszelkich pozyskiwanych i wytwarzanych danych. Trzeba określić czy istnieją jakiekolwiek ograniczenia prawne dotyczące ponownego wykorzystania danych pochodzących od osób trzecich.

Należy także wskazać licencje dla udostępnianych danych badawczych. Rekomenduje się korzystanie z otwartych licencji Creative Commons, możliwe jest też udostępnienie danych na zasadach domeny publicznej. Autor deponujący dane badawcze w repozytorium odpowiada za uzyskanie wszelkich zgód na udostępnienie danych, jak również odpowiada za anonimizację/pseudonimizację danych osobowych i wrażliwych. Należy pamiętać, że w przypadku prawa o ochronie danych osobowych (tj. RODO) konieczne będzie uzyskanie świadomej zgody uczestników na utrwalanie i udostępnianie ich danych osobowych.

*źródło: https://www.fosteropenscience.eu/content/open-research-data-definitions

 

Research Data

The Jagiellonian University has introduced the possibility of depositing open research data on the Jagiellonian University Repository platform.


Research data are materials of factual nature (in a numerical, text, graphic, or sound form) collected during application of various research techniques and considered by the scientific community to be indispensable for the purpose of assessing and replicating research results.
A distinction is usually made between the raw (non-analysed) research data, i.e. data obtained directly from measuring devices, in various scientific ventures, or collected in the frames of specific projects, and the data that have been processed.


One can deposit data from all areas of knowledge that have been produced, collected or described for further research use. The scope of data constituting one batch to be deposited shall be determined by their creator.


Collecting, processing, storage, protection and sharing of research data involves a number of activities that need to be planned for the sake of proper management. Increasingly, researchers have to submit a Data Management Plan (DMP) to the research funding body (RDF) already during the submission and evaluation phase of their grant application, which sets out how the data are managed both during and after conclusion of the research project. The main areas of activities that should be analysed in the preparation of the data management plan are described below.

Types of data

The types of data collected are very diverse, depending on the field of science and the research methodology adopted; for instance:
- textual documents and notes
- numerical data
- questionnaire and survey results
- audio and video recordings and photos
- database content (video, audio, text, images)
- mathematical models, algorithms
- software (scripts, input files, etc)
- output of computer simulations
- laboratory protocols and methodological descriptions
- samples, artefacts, objects*
The types of data, the way in which they are going to be collected and/or processed, their quantity, and frequency of occurrence are issues that have to be carefully considered in advance.

The file formats can be arbitrary, while in order to ensure universal access and openness, it is advisable to use formats that do not require proprietary reading software. Multiple files can be deposited under one description. If there are a great number of files, a good solution is to group and pack them, e.g. into a .zip form. One should also be attentive about file naming. An adequately named file/set of files can significantly facilitate accessing the relevant data by the user. These elements all contribute to the consequent efficient use of the data in the proper context.

Metadata and documentation

The documentation should describe the methodology of the research conducted as well as its context and source, informing about the way the data were organized during the project, e.g. the adopted convention, version, and structure of the folders. It often includes additional files needed to use the data (e.g. scripts) or standard dictionaries. One can create a separate ReadMe.txt file. If the research has been already documented in a published paper, its link should be provided in the URL field.


The metadata serve to characterize research data for a potential user, providing description of the entire data set (author, title, date of creation, license, scientific discipline, etc.). The research data must be always made available but with their metadata.
The research data in the JUR can be described using dedicated fields:
Description: the person submitting the research data should briefly characterize their content, origin, test methods used, research context etc.
Time range: The start date and the end date should be given, indicating the duration of the study, which is often the same as the period of performance of the grant.
Data provider: for any data deposited in the JUR, the Jagiellonian University Repository should be indicated as a provider.
Area of research: one should indicate a relevant field of research/art, narrowing it down to a particular discipline, basing on the classification of fields of research and scholarly and artistic disciplines included in the Regulation of the Minister of Science and Higher Education of 20 September 2018.
When updates or extensions of data are expected, the JUR makes it possible to version research data, using the fields: version, connections and DOI. In the version field, the person entering the description should indicate which version of research data it is (e.g. 1.0, 1.0.0).
When depositing the first version of research data, two DOI identifiers will be attributed to it at the verification stage in JL: one for the version and one for the concept. After submitting subsequent versions of the test data, one should specify a new version number (in version field), while the DOI for the concept (in connection field) remains the same, which is very important as it indicates that they are actually related and will allow the JUR administrators to properly link the records. It can also be noted in the description that this is a subsequent version of previously published research data.
For example, a correctly approved description for the second version of the research data could look like this:

 Schowek-1.jpg

Data storage and security

The issue of security and data storage needs to be carefully addressed in the entire process of collecting and/or processing research data. The issue of access to data (especially of sensitive kind) should be thoroughly analysed and precautionary steps taken in order to avert any undesirable leakage of confidential information. A backup plan has also to be implemented to prevent accidental data loss due to e.g. hardware failure.

Data protection (sensitive data, data protected by copyright)

Sensitive data are data related to racial or ethnic origin, political opinions, religious or philosophical beliefs, trade union membership and genetic profile. Biometric data that unambiguously identify a particular person or data concerning his or her health, sexuality or sexual orientation also fall into this category.
If any research work involves collecting and/or processing of sensitive data, it is necessary to ensure their adequate protection. The Jagiellonian University has implemented a policy for the protection of sensitive data and appointed a Data Protection Officer to see to its compliance and develop a data management plan that will solve any potential privacy or legal problems. See: https://iod.uj.edu.pl.

Access and reuse of research data

Providing access to research data consists in their proper description and making it available. It should be specified when one will be able to access (whether during or after the study, along with appropriate deadlines) and if the access will be open or restricted (any limitations should be clearly formulated). The Jagiellonian University Repository can provide both open and restricted access.
The reuse of research data in a different context will be enabled by assigning a unique permanent identifier in the form of DOI by the JUR administrator when the data is deposited by the author (actually there will be two DOI numbers: one for the version and the other for the concept, serving to connect the consecutive versions of research data). The DOI facilitates locating the data, tracking citations, and multiple reusing.

Long-term archiving of research data

Long-term archiving consists in storing research data over a large period of time. The data management plan should determine where the data are to be stored. In choosing an external institution to provide access to a research data repository, it is important to consider, among others, whether it has a long-term data storage plan, whether the files in which the data are stored can be described with metadata, who will be responsible for providing access to the data in, say, 10 or 15 years, who finances the repository and what the storage conditions are.
The Jagiellonian University Repository ensures long-term archiving of the deposited data on the university servers managed by the Jagiellonian University Integrated Systems Development Centre. Data security is further enhanced by performing regular backups.

The Jagiellonian University Repository complies with the FAIR Data principles, which can be expanded as follows:

  • Findable – easy to be searched for and found.
  • Accessible - available for everyone.
  • Interoperable - it can be combined with other data.
  • Reusable – suitable for multiple use.

The FAIR Data principles serve as guidelines to enable the reuse of research data under precisely described conditions both by humans and by machines. See more about FAIR Data here.

Copyright and licences

The owners of copyrights and intellectual property rights to all the data acquired and produced should be clearly indicated. It should be also specified if there are any legal restrictions on the reuse of data obtained from third parties.

Furthermore, one should indicate the licences for the research data made available. It is recommended to use open Creative Commons licenses, while it is also possible to share the data as public domain. The creator depositing research data in the repository is responsible for obtaining any relevant permission to share it, as well as for proper anonymization/pseudonymization of personal and sensitive data. One should keep in mind that under the effective data protection law (RODO), it is obligatory to obtain an informed consent of all the study’s participants to record and share their personal data.

*Source: https://www.fosteropenscience.eu/content/open-research-data-definitions.

 

Przykładowy DATA MANAGEMENT PLAN znajduje się tutaj