Help

Dane badawcze

Uniwersytet Jagielloński wprowadził możliwość deponowania otwartych danych badawczych na platformie Repozytorium Uniwersytetu Jagiellońskiego.

Dane badawcze (Research Data) – są to zebrane, w wyniku zastosowania różnych technik badawczych, materiały o charakterze faktograficznym (w postaci liczbowej, tekstowej, graficznej czy dźwiękowej), uznawane przez społeczność naukową za niezbędne do oceny wyników badań naukowych. 
Powszechnie wyróżnia się dane badawcze surowe, nieprzeanalizowane, czyli takie, które uzyskano bezpośrednio w wyniku zastosowania narzędzia badawczego, w różnych przedsięwzięciach naukowych lub też zgromadzone na potrzeby konkretnych projektów oraz dane, które poddane zostały obróbce.

Deponować można dane ze wszystkich obszarów wiedzy, które zostały wytworzone, zebrane lub opisane na potrzeby działalności badawczej. Zakres danych umieszczonych w jednym zbiorze przeznaczonym do deponowania ustala autor. 

Gromadzenie, przetwarzanie, przechowywanie, ochrona i udostępnianie danych badawczych wiąże się z szeregiem działań, które należy zaplanować by właściwie nimi zarządzać. Coraz częściej już na etapie składania i oceny wniosków grantowych naukowcy muszą przedstawić przed instytucją finansującą badania naukowe plan zarządzania danymi -  DMP (Data Management Plan) , który określa sposób zarządzania danymi badawczymi zarówno podczas projektu badawczego, jak i po jego zakończeniu. Poniżej opisano główne obszary działań, jakie należy przeanalizować przygotowując plan zarządzania danymi.

Rodzaje zbieranych danych

Rodzaje gromadzonych danych są bardzo różnorodne. Zależne od dziedziny nauki oraz przyjętej metodologii badań. Są to m.in.:
• Dokumenty tekstowe, notatki
• Dane liczbowe
• Kwestionariusze, ankiety, wyniki badań ankietowych
• Nagrania audio i video, zdjęcia
• Zawartość baz danych (video, audio, teksty, obrazy)
• Modele matematyczne, algorytmy
• Oprogramowanie (skrypty, pliki wejściowe…)
• Wyniki symulacji komputerowych
• Protokoły laboratoryjne, opisy metodologiczne
• próbki, artefakty, obiekty*
Kwestią wartą przemyślenia są typy danych, sposób ich gromadzenia i/lub przetwarzania, ilość i częstotliwość występowania. 

Formaty plików mogą być dowolne, jednak dbając o powszechny dostęp i otwartość, dobrze korzystać z formatów, które nie wymagają komercyjnego oprogramowania do odczytu danych. W jednym opisie można dodać wiele plików. Jeżeli plików jest dużo dobrym rozwiązaniem jest ich pogrupowanie i spakowanie, np. do postaci .zip. Należy także dobrze przemyśleć nazewnictwo plików. Odpowiednio nazwany plik/zbiór plików może znacząco ułatwić użytkownikowi korzystanie z danych. Wszystkie te elementy składają się na późniejsze efektywnie wykorzystanie danych we właściwym kontekście.

Metadane i dokumentacja

Dokumentacja powinna opisywać metodologię prowadzonych badań oraz ich kontekst i źródło. Informuje o sposobie organizacji danych w trakcie projektu np. przyjętej konwencji, wersji i strukturze folderów. Często zawiera także dodatkowe pliki potrzebne do skorzystania z danych (np. skrypty) czy wykorzystane standardowe słowniki. Można utworzyć osobny plik ReadMe.txt. Jeżeli istnieje już publikacja naukowa, w której opisana jest dokumentacja badawcza, należy podać odnośnik do niej w polu adres URL.

Metadane umożliwiają nam scharakteryzowanie danych badawczych, tak by potencjalny użytkownik wiedział jakiego rodzaju są to dane. Metadane charakteryzują opis całego zbioru danych (autor, tytuł, data powstania, licencja, dyscyplina naukowa etc.). Dane badawcze muszą być udostępnione wraz z ich metadanymi.

Dane badawcze w RUJ można opisać z wykorzystaniem dedykowanych pól: 
Opis, w którym osoba wprowadzająca dane badawcze powinna krótko scharakteryzować ich zawartość, pochodzenie, stosowane metody badawcze, kontekst badań i inne.
Zakres czasowy: należy podać datę początkową i datę końcową określającą czas prowadzonych badań, który często jest tożsamy z okresem trwania grantu.
Dostawca danych: dla danych zdeponowanych w RUJ należy wskazać Repozytorium Uniwersytetu Jagiellońskiego.
Obszar badań: należy wskazać Dziedzinę nauki/sztuki z zawężeniem do Dyscypliny naukowej/artystycznej. Wyboru dokonujemy spośród klasyfikacji dziedzin nauki i dyscyplin naukowych oraz dyscyplin artystycznych wskazanych w Rozporządzeniu Ministra Nauki i Szkolnictwa Wyższego z dnia 20 września 2018 r.
Dla danych, co do których przewiduje się uaktualnienia czy rozszerzenia przewidziano w RUJ możliwość wersjonowania danych badawczych. Wersjonowanie będzie odzwierciedlone z użyciem pól: wersjapowiązania oraz DOI. W polu wersja osoba wprowadzająca opis powinna wskazać wersję danych badawczych (tj. nadać numer np. 1.0 , 1.0.0). 
Podczas deponowania pierwszej wersji danych, na etapie weryfikacji w BJ, nadane zostaną dwa numery DOI: jeden dla wersji i drugi dla koncepcji. Deponując kolejne wersje danych badawczych należy określić nowy numer wersji (pole wersja) oraz podać numer DOI dla koncepcji (pole powiązań). Podanie numeru DOI dla koncepcji w kolejnych wersjach danych badawczych jest bardzo ważne ponieważ wskazuje na zależności pomiędzy nimi i pozwoli administratorom RUJ na prawidłowe powiązanie rekordów. Można także dodać w opisie Uwagę, że jest to kolejna wersja opublikowanych już danych badawczych. 
Przykładowo prawidłowo zatwierdzony opis dla wersji drugiej danych badawczych powinien wyglądać następująco:

wersje.jpg

Przechowywanie i bezpieczeństwo danych

Kwestię bezpieczeństwa oraz przechowywania danych należy gruntownie przemyśleć dla całego procesu gromadzenia i ewentualnego przetwarzania danych badawczych. Należy przeanalizować kwestię dostępu do danych (szczególnie jeżeli zawierają dane wrażliwe), by zapobiec niewłaściwemu dostępowi do poufnych danych. Konieczne jest też opracowanie planu tworzenia kopii zapasowych, by zapobiec utracie danych w wyniku np. awarii sprzętu.

Ochrona danych (dane wrażliwe, dane chronione prawem autorskim)

Dane wrażliwe to dane ujawniające pochodzenie rasowe lub etniczne, poglądy polityczne, przekonania religijne lub światopoglądowe, przynależność do związków zawodowych oraz dane genetyczne, dane biometryczne jednoznacznie identyfikujące osoby fizyczne lub dane dotyczące zdrowia, seksualności lub orientacji seksualnej tej osoby. 
Jeżeli badania zakładają gromadzenie i/lub przetwarzanie danych wrażliwych konieczne jest przemyślenie ich właściwej ochrony. Uniwersytet Jagielloński wdrożył politykę ochrony danych wrażliwych i oraz powołał Inspektora Ochrony Danych do jej przestrzegania. Pomoże on także w opracowaniu planu zarządzania danymi, który rozwiąże wszelkie potencjalne problemy związane z prywatnością lub prawem. Zobacz: https://iod.uj.edu.pl.

Dostęp i ponowne użycie danych badawczych

Zapewnienie dostępu do danych badawczych polega na ich udostępnieniu oraz opisaniu. Należy określić kiedy dane zostaną udostępnione (czy w trakcie trwania, czy po zakończeniu badań, należy podać termin lub terminy udostępnienia) oraz czy dostęp będzie pełny czy ograniczony (w tym przypadku należy wskazać ograniczenia i przeszkody uniemożliwiające ich pełne/częściowe udostępnienie). Repozytorium Uniwersytetu Jagiellońskiego umożliwia zarówno dostęp w trybie open access, jak też limitowany.
Ponowne użycie danych badawczych w innym kontekście będzie zapewnione poprzez zastosowanie unikalnego i trwale przypisanego identyfikatora. Trwały identyfikator, w postaci DOI, zostanie nadany przez administratora RUJ w momencie zdeponowania danych przez autora (nadane zostaną dwa numery DOI: jeden dla wersji i drugi dla koncepcji. Numer DOI dla koncepcji będzie służył powiązaniu kolejnych wersji danych badawczych). DOI pozwala na lokalizację danych oraz na łatwe śledzenie cytowań i dalsze, wielokrotne użycie.

Długoterminowa archiwizacja danych badawczych

Długoterminowa archiwizacja to przechowywanie danych badawczych w dłuższym okresie czasu. W planie zarządzania danymi należy uwzględnić gdzie bedą przechowywane dane. W przypadku wyboru instytucji zewnętrznej, która udostępnia repozytorium danych badawczych, istotne jest uwzględnienie m. in.: czy posiada plan przechowywania danych w dłuższym okresie czasu, czy pliki, w których są zapisane dane, można opisać metadanymi, kto jest odpowiedzialny za dostęp do danych np. za 10 lub 15 lat oraz kto finansuje repozytorium i jakie są warunki przechowywania.

Repozytorium Uniwersytetu Jagiellońskiego zapewnia długotrwałe archiwizowanie zdeponowanych danych na serwerach uniwersyteckich zarządzanych przez Centrum Rozwoju Systemów Zintegrowanych Uniwersytetu Jagiellońskiego. Bezpieczeństwo danych jest także zapewnione poprzez wykonywanie regularnych kopii roboczych.

Repozytorium Uniwersytetu Jagielońskiego spełnia zasady FAIR Data, które w rozwinięciu oznaczają:

  • Findable - łatwo znajdowane i wyszukiwane.
  • Accessible - dostępne dla wszystkich.
  • Interoperable - interoperacyjne, tak aby można było je połączyć z innymi danymi.
  • Reusable - wielokrotnego użytku.

Zasady FAIR Data służą jako wytyczne dla umożliwienia ponownego wykorzystania danych naukowych w wyraźnie opisanych warunkach, zarówno przez ludzi, jak i przez maszyny. Więcej o FAIR Data zobacz tutaj.

Prawa autorskie i licencje

Należy wskazać właścicieli praw autorskich i praw własności intelektualnej do wszelkich pozyskiwanych i wytwarzanych danych. Trzeba określić czy istnieją jakiekolwiek ograniczenia prawne dotyczące ponownego wykorzystania danych pochodzących od osób trzecich.

Należy także wskazać licencje dla udostępnianych danych badawczych. Rekomenduje się korzystanie z otwartych licencji Creative Commons, możliwe jest też udostępnienie danych na zasadach domeny publicznej. Autor deponujący dane badawcze w repozytorium odpowiada za uzyskanie wszelkich zgód na udostępnienie danych, jak również odpowiada za anonimizację/pseudonimizację danych osobowych i wrażliwych. Należy pamiętać, że w przypadku prawa o ochronie danych osobowych (tj. RODO) konieczne będzie uzyskanie świadomej zgody uczestników na utrwalanie i udostępnianie ich danych osobowych.

 

*źródło: https://www.fosteropenscience.eu/content/open-research-data-definitions