DANE BADAWCZE

Podstawowa zasada dotycząca udostępniania danych badawczych brzmi: dane powinny być tak otwarte, jak to możliwe i na tyle zamknięte, na ile to jest konieczne.

Dane badawcze (research data) to materiały w postaci cyfrowej i analogowej, zaobserwowane, zebrane, przetworzone lub wytworzone w ramach działalności naukowej. Uznawane są one przez społeczność naukową za niezbędne do oceny wyników badań naukowych, a także przydatne do realizacji nowych badań.

W procesie badań naukowych można wyróżnić dwa rodzaje danych badawczych:

Dane badawcze wtórne - to dane, które są wynikiem wcześniejszych badań i analiz lub pochodzą z dokumentów źródłowych.

Przykłady: opublikowane wcześniej zbiory danych badawczych, wydane publikacje, zbiory biblioteczne, archiwalne, muzealne, dokumenty urzędowe (GUS itp.), akty prawne.

Dane badawcze pierwotne - to dane wytworzone w trakcie realizacji bieżących badań naukowych lub projektów.

Przykłady: ankiety, kwestionariusze oraz ich analizy, materiały audiowizualne, zdjęcia, notatki, oprogramowanie, wyniki symulacji komputerowych, algorytmy, próbki, protokoły laboratoryjne, opisy metodologiczne itp.

Koszty zarządzania danymi nie są tak duże jak koszty wytworzenia nowych danych.

Odpowiednie zarządzanie danymi badawczymi wynika z konieczności odpowiedzialnego gospodarowania środkami publicznymi. Należy zadbać, aby środki te nie były wydawane na podobne badania, wcześniej już sfinansowane ze źródeł publicznych.

Udostępnianie danych

Dane badawcze powstałe w trakcie projektów finansowanych ze środków publicznych należy udostępniać zgodnie z zasadą „tak otwarte, jak to możliwe – tak zamknięte, jak to konieczne”. Dane badawcze powinny być udostępniane zaraz po zakończeniu projektu i/lub równocześnie z opublikowaniem wyników badań np. w artykule.

Otwarte dane badawcze gromadzone są w repozytoriach danych, do których każdy zainteresowany ma bezpłatny dostęp.

Jeśli istnieją powody, dla których danych badawczych lub ich części nie można udostępnić w modelu otwartym (kwestie prawne, komercjalizacja wyników, badania są wstępem do kolejnego projektu itp.) istnieje możliwość udzielenia dostępu przez badacza do danych “na życzenie” lub z zastosowaniem okresowej karencji.

Ochrona danych

Jeżeli w trakcie prowadzonych badań gromadzone są dane osobowe lub dane wrażliwe, przed udostępnieniem należy poddać je pseudonimizacji lub anonimizacji.

Pseudonimizacja oznacza przetworzenie danych osobowych w taki sposób, by nie można ich było już przypisać do osoby, której dane dotyczą, bez użycia “klucza”. Dodatkowe informacje, umożliwiające ponowne przypisanie danych do konkretnej osoby muszą być przechowwane osobno z zastosowaniem odpowiednich środków bezpieczeństwa. Dane poddane pseudonimizacji nadal są danymi osobowymi.

Anonimizacja jest to przetworzenie danych osobowych, które uniemożliwia przypisanie danych do konkretnej osoby. Dane zanonimizowane nie mają charakteru osobowego.

Więcej informacji o ochronie danych można znaleźć na stronie Inspektora Ochrony Danych UJ.

Metadane to dane o danych.

W zarządzaniu danymi badawczymi istotne są zarówno metadane plików, które określa badacz, jak również metadane opisujące zbiór danych - jest to gotowy schemat metadanych stosowanych w repozytorium danych.

Metadane plików

W trakcie badań naukowych zazwyczaj powstaje duża ilość plików w różnych formatach i różnych wersjach. Odpowiednie zarządzanie plikami w trakcie prowadzenia badań ułatwia identyfikowanie i efektywne wykorzystywanie gromadzonych plików.

W zarządzaniu plikami bardzo ważne jest ich odpowiednie nazewnictwo Nadając nazwy należy stosować tylko cyfry, litery oraz znaki podkreślenia. Nie powinno używać się znaków specjalnych, myślników, spacji. Daty powinny mieć jednolity format np. DDMMYYYY. Jeżeli badania zakładają wytworzenie dużej ilości plików w przypadku stosowania numeracji w nazwach plików warto zaczynać od 001 zamiast od 1.

Nazwa pliku powinna zawierać wystarczająco dużo informacji opisowych i kontekstowych, aby odzwierciedlała zawartość pliku w sposób zrozumiały zarówno dla badacza jak i jego współpracowników oraz przyszłych użytkowników. Należy unikać nadawania plikom nazw zbyt ogólnych, które mogą stać się problematyczne np. w przypadku zmiany lokalizacji plików.

Istotne jest także jednolite oznaczanie kolejnych wersji plików. Najłatwiejszą formą porządkowania wersji plików danych jest użycie liczb porządkowych, takich jak 1, 2 i 3 dla głównych zmian wersji i dziesiętnych dla drobnych zmian, np.: wersja 1.1. Należy unikać takich nazw jak “wersja końcowa”, “kopia 2”, itp.

Metadane opisujące zbiór danych

DublinCore jest jednym ze standardów zapisu metadanych stosowanych do opisu zbioru danych (datasetu) w repozytoriach danych.

Przykładowe metadane:

Tytuł
Autor/Autorzy
Opis danych
Streszczenie projektu
Słowa kluczowe
Dziedziny wg. MEiN oraz OECD
Powiązane publikacje
Powiązany zbiór danych
Producent danych
Finansowanie (w przypadku projektu)
Okres gromadzenia danych
Rodzaj danych w zbiorze

Udostępniając dane badawcze należy wskazać licencje, na podstawie których użytkownicy mogą korzystać z danych. Rekomenduje się udostępnianie na otwartych licencjach Creative Commons.

Licencje do danych badawczych

CC0 – zrzeczenie się praw autorskich - przekazanie zbioru danych do domeny publicznej, pozwala użytkownikom na korzystanie ze zbioru danych w nieograniczonym zakresie i bez żadnych zobowiązań,

CC BY - Uznanie autorstwa - pozwala użytkownikom na kopiowanie, modyfikowanie, rozpowszechnianie i tworzenie nowych utworów bądź zbiorów w oparciu o licencjonowany zbiór danych, pod warunkiem oznaczenia autorstwa tego zbioru danych, zezwala na wykorzystanie zbioru danych w celach komercyjnych,

CC BY-NC - Uznanie autorstwa - Użycie niekomercyjne - pozwala użytkownikom na kopiowanie, modyfikowanie i rozpowszechnianie licencjonowanego zbioru danych, wyłącznie w celach niekomercyjnych pod warunkiem oznaczenia autorstwa tego zbioru danych,

CC BY-SA - Uznanie autorstwa - Na tych samych warunkach - pozwala użytkownikom na kopiowanie, modyfikowanie oraz rozpowszechnianie zbioru danych pod warunkiem oznaczenia autorstwa i udostępniania danych oryginalnych oraz zmodyfikowanych na tej samej licencji,

CC BY-NC-SA - Uznanie autorstwa - Użycie niekomercyjne - Na tych samych warunkach - pozwala użytkownikom kopiować, modyfikować i rozpowszechniać zbiory danych przy zastrzeżeniu, że zarówno oryginalne jak i zmodyfikowane dane będą udostępniane na takiej samej licencji i wyłącznie w celach niekomercyjnych,

CC BY-ND - Uznanie autorstwa - Bez utworów zależnych - umożliwia użytkownikom ponowne wykorzystanie zbioru danych pod warunkiem oznaczenia autorstwa. Licencja nie pozwala jednak na modyfikowanie zbioru. Nie jest wskazana do licencjonowania danych badawczych, gdyż praktycznie uniemożliwia dalsze prace na danych,

CC BY-NC-ND - Uznanie autorstwa - Użycie niekomercyjne - Bez utworów zależnych - jest to najbardziej restrykcyjna licencja. Pozwala użytkownikom na pobieranie zbioru danych i dzielenie się nim, pod warunkiem określenia autorstwa. Zbiór nie może być modyfikowany ani wykorzystywany komercyjnie. Jest to najbardziej restrykcyjna z licencji. Nie jest wskazana do licencjonowania danych badawczych, gdyż praktycznie uniemożliwia dalsze prace na danych.

Licencje do baz danych

Licencja PDDL (Public Domain Dedication and License PDDL) – domena publiczna dla baz danych. Zakłada nieograniczoną możliwość pobierania, udostępniania i modyfikowania baz danych,

Licencja ODC (Open Data Commons Attribution License ODC-BY) – zezwala na kopiowanie, modyfikowanie bazy danych pod warunkiem oznaczenia autorstwa bazy,

Licencja ODbL (Database License ODC – ODbL) – zezwala na kopiowanie, przetwarzanie oraz rozpowszechnianie bazy danych pod warunkiem uznania jej autorstwa oraz upowszechniania zmodyfikowanej bazy na takich samych warunkach, na jakich została udostępniona baza oryginalna.

Licencje do programów komputerowych

GNU GPL - General Public License – zezwala na uruchomianie, analizowania, rozpowszechnianie i udoskonalanie programu w dowolnym celu. Dzieła pochodne (również zmodyfikowany kod źródłowy) muszą być udostępnione na tej licencji,

GNU LGPL – Lesser General Public License - zezwala na uruchomianie, analizowania, rozpowszechnianie i udoskonalanie programu w dowolnym celu. Nakłada ograniczenia określane jako copyleft tylko na poszczególne pliki źródłowe. Licencja zobowiązuje do udostępnienia tylko kodu źródłowego (plików źródłowych) w wersji pierwotnej bez dzieł pochodnych.

Zgodnie z ideą otwartych danych badawczych „otwarte w największym możliwym zakresie, zamknięte tylko w koniecznym” sformułowano zasady FAIR.

Zasady te dotyczą także metadanych, czyli danych opisujących dane badawcze w repozytoriach danych.

FAIR jest akronimem od:

Findable - łatwe do odnalezienia i wyszukania
Accessible - dostępne dla wszystkich
Interoperable - realne do zintegrowania/połączenia np. z innymi zestawami danych
Reusable - możliwe do wielokrotnego użytku

Findable

dane opisane są metadanymi (np. w repozytoriach danych), które ułatwiają ich odnalezienie zarówno przez ludzi, jaki systemy komputerowe
dane opatrzone są unikalnym identyfikatorem np. DOI
metadane i dane badawcze są indeksowane w agregatorach danych, których zasoby można przeszukiwać (np. OpenAIRE)

Accessible

dane badawcze możliwe są do odnalezienia dzięki metadanym i przypisanemu identyfikatorowi np. DOI
dana są ogólnodostępne dzięki powszechnym i darmowym narzędziom komputerowym, a jeśli wymagane jest specjalistyczne oprogramowanie, to tylko ze względu na specyfikę danych oraz zachowanie ich jakości
metadane danych są zawsze dostępne, nawet jeśli sam zbiór danych (dataset) został przeniesiony, usunięty lub dostęp do tych danych został ograniczony na wniosek badacza

Interoperable

dane zapisane są za pomocą ogólnodostępnych programów, co pozwala na ich łączenie lub wymianę z innym zestawami danych (datasetami)
odpowiedni standard zapisu metadanych (np. Dublin Core) i danych zapewnia ich łatwy odczyt zarówno przez ludzi, jak i komputery
metadane i zbiory danych zawierają odnośniki do powiązanych z nimi kolejnych wersji tych badań, innych datasetów lub publikacji

Reusable

dane są wielokrotnego użytku, co oznacza, że mogą być ponownie wykorzystane
dane muszą być dobrze opisane, tzn. ich metadane zawierają informację o autorstwie, miejscu powstania badań, itp.
datasety opatrzone są licencjami, na podstawie których dane mogą być ponownie użyte lub przetworzone

Zasady FAIR to wciąż ewoluujące rekomendacje, które należy stosować w procesie udostępniania, ale także ochrony danych badawczych w otwartym dostępie (Open Access). Inicjatywy takie jak European Open Science Cloud (EOSC) jak i GO FAIR kontynuują prace nad rozwijaniem standardów FAIR.

Inne przydatne linki: GO FAIR Principles, FORCE11, terms4FAIRskills, How to be FAIR with your data, FAIRassist

Właściwy plan zarządzania danymi stworzony już na początku projektu oszczędza wiele czasu podczas zbierania danych badawczych, a także podczas ich konsolidacji na koniec całego projektu.

Instrukcja planu zarządzania danymi (DMP)

Co to jest DMP?

Plan zarządzania danymi PZD (ang. Data Management Plan - DMP) ułatwia planowanie procedur związanych z pozyskiwaniem, przetwarzaniem i dzieleniem się danymi badawczymi. Jest częścią wniosku projektowego i opisuje to, co będzie działo się z danymi zarówno w trakcie projektu lub badań, jak i po ich zakończeniu. DMP jest określany jako “żywy dokument”, który powinien być aktualizowany wraz ze zmianami pojawiającymi się na każdym etapie pracy badawczej.

Zgodnie z zasadami FAIR (Findability, Accessibility, Interoperability, Reusability) plan zarządzania danymi powinien opisywać, jakie działania zostaną podjęte, aby wytworzone dane badawcze były łatwe do odnalezienia, dostępne, możliwe do powiązania z innymi danymi dzięki łatwemu odczytowi zarówno przez ludzi, jak i komputery oraz do ponownego ich wykorzystania.

Przygotowanie DMP pomaga także wziąć pod uwagę kwestie prawne, które mogą wystąpić podczas realizacji badań. Należy wskazać właścicieli praw autorskich i praw własności intelektualnej do wszelkich pozyskiwanych i wytwarzanych danych. Konieczne jest także określenie na jakich licencjach dane badawcze zostaną udostępnione w otwartym dostępie po projekcie.

Dane badawcze wytworzone w trakcie realizacji badań są własnością jednostki naukowej, w której były prowadzone badania.

DMP służy jako wsparcie dla naukowców w prowadzeniu badań, ale także jest dokumentem informacyjnym dla osób odpowiedzialnych za zrównoważone działanie związane z zarządzaniem danymi na Uniwersytecie Jagiellońskim.

Co powinien zawierać plan zarządzania danymi?

Plany mogą różnić się od siebie w zależności od instytucji finansującej badania. Niezależnie od tego powinny zawierać informacje wspólne dla wszystkich działań badawczych, w zakresie:

danych - sposoby pozyskiwania i wytwarzania nowych danych (danych pierwotnych) oraz ponownego wykorzystania już istniejących (danych wtórnych), określenie ich rodzaju (np. dane eksperymentalne lub obserwacyjne) i formatu (np. .xls, .pdf) oraz objętości plików (informacja ta może być skorygowana w trakcie projektu lub już po zakończeniu);
dokumentacji metodologii badań, sposobu organizacji danych (foldery, pliki i ich nazewnictwo);
standardu metadanych w otwartym dostępie (np. Dublin Core);
opisu procedur zapewniających kontrolę jakości danych - podział obowiązków i czynności związanych z nadzorowaniem i kontrolą poprawności danych;
przechowywania i tworzenia kopii zapasowych podczas badań - bezpieczeństwo danych i metadanych (nośniki fizyczne i wirtualne np. chmury);
wymogów etycznych i kwestii prawnych - sposoby zapewnienia zgodności z przepisami dotyczącymi danych osobowych i wrażliwych oraz bezpieczeństwa ich przetwarzaniu, sposoby zarządzania innymi kwestiami prawnymi, np. prawami własności intelektualnej lub prawami autorskimi, licencje na jakich dane zostaną udostępnione w otwartym dostępie (np. w repozytorium danych badawczych);
udostępniania i długotrwałego przechowywania (archiwizacji) danych - sposób (np. w repozytorium) i termin (np. w trakcie lub po zakończeniu badań) udostępniania danych, ograniczenia w ich dostępie, przyczyny embarga, sposoby selekcji danych, miejsce długoterminowego przechowywania, metody lub narzędzia programowe umożliwiające dostęp i korzystanie z danych, przypisanie identyfikatora np. DOI do każdego zbioru danych;
zadań związanych z zarządzaniem danymi - wybór osoby zarządzającej danymi w trakcie (np. kierownik projektu) i po zakończeniu badań (np. administratorzy repozytorium);
kosztów zarządzania danymi - określenie środków finansowych przeznaczonych na zarządzanie danymi zgodnie z zasadami FAIR w trakcie projektu oraz po jego zakończeniu (np. dodatkowa pamięć masowa, długoterminowe przechowywanie, open access) - koszty te zostaną pokryte z 2% kosztów pośrednich projektu.

Obowiązek tworzenia DMP

W Polsce najwięcej projektów finansowanych jest przez Narodowe Centrum Nauki, które od 2019 r. wprowadziło obowiązek dołączania planu zarządzania danymi badawczymi do formularza wniosku o finansowanie projektu (komunikat: "Plany NCN w zakresie zarządzania danymi naukowymi" z dnia 3.04.2019 r.)

Na stronie internetowej NCN zamieszczono Wytyczne dla wnioskodawców odnośnie tworzenia DMP w projekcie badawczym.

Plan zarządzania danymi badawczymi może podlegać zmianom w trakcie realizacji projektu, podobnie jak plan badawczy z którym jest związany, bez konieczności konsultowania z NCN. Ostateczna wersja DMP wymagana jest na etapie składania raportu końcowego.

NCN dopuszcza możliwość, że w ramach niektórych projektów nie będą wytwarzane, na nowo wykorzystywane, ani poddawane analizie żadne dane badawcze oraz inne podobne materiały. W takich wypadkach wymagane jest jednak uzasadnienie.

Do innych organizacji, instytucji i agencji finansujących badania naukowe, które wymagają tworzenia DMP należą także m.in.:

Komisja Europejska (KE)
Ministerstwo Edukacji i Nauki (MEiN)
Narodowe Centrum Badań i Rozwoju (NCBR)
Agencja Badań Medycznych (ABM)

Warto skorzystać z formularzy DMP dostępnych na stronie programu Horyzont Europa oraz na stronach DMPTool i DMPonline. Przykłady planów zarządzania danymi znajdują także w serwisie brytyjskiej instytucji specjalizującej się w zarządzaniu danymi badawczymi Digital Curation Centre.

Zalety DMP

Decyzje podjęte na początku badań będą miały wpływ na późniejszy dostęp do danych badawczych bezpośrednio po projekcie, ale także w okresie długoterminowym.

Dobrze opracowany plan zarządzania danymi przynosi wiele korzyści:

pomaga w wyborze sprzętu i oprogramowania,
reguluje kwestie związane z prawami własności intelektualnej i etyką,
ułatwia selekcję danych do długoterminowej archiwizacji i do dalszego udostępniania,
pomaga w przygotowaniu późniejszych publikacji przy użyciu danych zapisanych i konsekwentnie dokumentowanych w trakcie całego projektu,
wpływa na wzrost cytowań zarówno artykułów, jak i zestawów danych,
umożliwia ciągłość pracy, jeśli zmieni się skład osobowy zespołu projektowego,
gwarantuje dostęp do danych w przyszłości,
prowadzi do większej współpracy i zaawansowanych badań,
zapobiega niepotrzebnemu powielaniu np. ponownemu gromadzeniu lub przetwarzaniu danych,
pozwala na walidację wyników,
zapobiega utracie danych.

RODBUK powstało w ramach współpracy 6 uczelni krakowskich: Uniwersytetu Jagiellońskiego w Krakowie, Akademii Górniczo-Hutniczej im. Stanisława Staszica w Krakowie, Politechniki Krakowskiej im. Tadeusza Kościuszki, Uniwersytetu Ekonomicznego w Krakowie, Uniwersytetu Pedagogicznego im. Komisji Edukacji Narodowej w Krakowie, Akademii Wychowania Fizycznego im. Bronisława Czecha w Krakowie.

Jest to pierwsze w Polsce repozytorium, które przyjęło rozproszony model działania. Każda uczelnia biorąca udział w projekcie administruje własną instancją systemu, a wszystkie zasoby danych badawczych widoczne są dla użytkowników we wspólnym agregatorze https://rodbuk.pl

Wspierając politykę open science RODBUK umożliwia pracownikom naukowym, doktorantom i studentom realizującym projekty badawcze deponowanie, archiwizację i udostępnianie danych z różnych dyscyplin i w różnych formatach. Każdy zbiór danych, który zostanie umieszczony w repozytorium będzie miał automatycznie przypisany identyfikator DOI.

Korzystanie z RODBUK dla użytkowników jest bezpłatne.

Platforma edukacyjna NAVOICA - kursy z zarządzania danymi badawczymi

NAVOICA zaprasza do odbycia kursów online z zarządzania danymi badawczymi. Celem kursów jest przekazanie uczestnikom wiedzy na temat zarządzania danymi badawczymi oraz wykształcenie umiejętności i kompetencji pozwalających na wykorzystanie tej wiedzy w praktyce, podczas realizacji projektów badawczych. Zaliczenie kursu kończy się uzyskaniem certyfikatu.

NAVOICA to ogólnopolska platforma edukacyjna, należąca do Ministerstwa Edukacji i Nauki, którą rozwija Ośrodek Przetwarzania Informacji - Państwowy Instytut Badawczy (OPI PIB). Nazwa platformy pochodzi od Nawojki, która zgodnie z legendą była pierwszą polską studentką. NAVOICA oferuje bezpłatne kursy online typu MOOC (ang. Massive Open Online Courses) realizowane przez uczelnie i instytucje edukacyjne. Projekt "Polski MOOC" ma charakter niekomercyjny.

Platforma oferuje:

bogatą ofertę wirtualnych kursów
szeroki zakres tematyczny kursów o zróżnicowanym poziomie trudności
wysoki poziom jakości szkoleń tworzonych przez ekspertów, wykładowców oraz pracowników naukowych polskich uczelni
możliwość uczenia się w dowolnym czasie i miejscu, we własnym tempie
uzyskanie elektronicznego zaświadczenia (certyfikatu), które można pobrać jako plik PDF i wydrukować

Kursy z zarządzania danymi badawczymi:

Kurs dla naukowców - poziom podstawowy

Kurs dla naukowców - poziom średnio zaawansowany

Zarządzanie danymi badawczymi dla data stewardów - kurs podstawowy

Zarządzanie danymi badawczymi dla data stewardów - kurs średnio zaawansowany

Zespół wsparcia ds. danych badawczych UJ

W skład Zespołu wsparcia ds. danych badawczych UJ wchodzi Wicedyrektor ds. zasobów cyfrowych, Koordynator UJ ds. otwartego dostępu do publikacji naukowych i danych badawczych dr Leszek Szafrański, a także pracownicy Oddziału Zbiorów Cyfrowych Biblioteki Jagiellońskiej Małgorzata Galik oraz Joanna Konik.

Zespół podejmuje szereg działań wspierających pracowników UJ w zarządzaniu danymi badawczymi. Organizuje szkolenia, na których naukowcy mogą zapoznać się z tematyką danych badawczych. Zapewnia pomoc przy weryfikacji planów zarządzania danymi badawczymi (Data Management Plan - DMP) oraz konsultacje przy deponowaniu danych w Repozytorium Otwartych Danych Badawczych Uczelni Krakowskich RODBUK. Zespół współpracuje z Centrum Wsparcia Nauki UJ, które koordynuje realizację projektów badawczych pracowników Uniwersytety Jagiellońskiego oraz z Inspektorem Ochrony Danych UJ.

Informacje kontaktowe:

email: l.szafranski@uj.edu.pl
telefon: 12 663 3556

email: malgorzata.galik@uj.edu.pl
email: joanna.konik@uj.edu.pl
telefon: 12 663 3589

Otwarta nauka na UJ

Otwarta nauka na UJ

Widok zawartości stron Widok zawartości stron

Widok zawartości stron Widok zawartości stron