Základy práce s výzkumnými daty

Základní pojmy

Co jsou výzkumná data

Výzkumná data jsou jakékoliv informace, které byly shromážděny, pozorovány, či vytvořeny za účelem zjištění nebo ověření výsledků výzkumu. Mohou mít různou podobu a formu. Při jejich zveřejňování rozlišujeme doprovodná data k publikaci a samostatné datové sady. Digitální výzkumná data v humanitních oborech mohou být digitalizovaná i born digital (původně digitální).

Příklady výzkumných dat

  • mediální data (audio a video nahrávky, fotografie, skeny, 3D modely)
  • přepisy rozhovorů, odpovědi z dotazníků
  • terénní poznámky, deníky
  • software, skripty

Cyklus správy výzkumných dat

  1. Vznik dat: plán výzkumu, Data Management Plan, sběr dat a jejich uložení, generování některých metadat
  2. Zpracování dat: digitalizace, vyčištění, validace, anonymizace, popis dalšími metadaty, uložení zpracovaných dat
  3. Analýza dat: interpretace a analýza dat, vizualizace, tvorba závěrů, příprava publikace
  4. Ochrana dat: archivní uložení, zálohování, migrace formátů, dokumentace
  5. Sdílení dat: řízení přístupu, vlastnictví a copyright, licence
  6. Opakované využití dat: nový výzkum, partnerství, inovativní znovuvyužití dat, výuka a vzdělávání
Cyklus správy výzkumných dat z openscience.muni.cz
Správa dat a DMP

Data Management Plan

Data Management Plan (DMP, plán správy dat) je dokument popisující nakládání s daty v průběhu výzkumného projektu. Vzniká v počáteční fázi výzkumu a průběžně se aktualizuje. Bývá vyžadován ze strany poskytovatelů financí (např. Horizon Europe, TA ČR, GA ČR).

Konkrétní formulace otázek se liší podle poskytovatele podpory, základními oblastmi jsou:

  • sběr dat,
  • popis dat (dokumentace a metadata),
  • právní a etické otázky,
  • způsob uchování a přístupu,
  • plán pro smazání nebo dlouhodobé uchování dat,
  • plán pro sdílení dat,
  • určení odpovědnosti za jednotlivé oblasti.

Konzultace k DMP Záznam přednášky o DMP

Doporučené nástroje

  • Data Stewardship Wizard: nástroj pro podporu správy výzkumných dat nabízí sady otázek ke všem fázím výzkumného procesu; umožňuje export DMP (Data Management Plan) v různých šablonách (včetně Horizon Europe), spolupráci v týmu se sledováním provedených změn nebo také propojení s projekty v INETu
  • DMPonline: méně robustní nástroj pro tvorbu DMP; umožňuje institucionální přihlášení, obsahuje nápovědu k jednotlivým polím a nabízí export v různých formátech
FAIR data

FAIR principy při práci s daty

Zkratka FAIR označuje čtyři principy, které by data měla splňovat, především při jejich sdílení. Otevřený přístup není podmínkou – ne všechna data je možné zpřístupnit, například pokud jde o citlivá data. Důležitou zásadou je také právo prvního využití náležející výzkumníkovi nebo týmu, který data nasbíral. Data mohou mít různou míru otevřenosti, zpřístupnění dat dle FAIR principů neznamená automatické zpřístupnění komukoli. Východiskem je princip „As open as possible, as close as necessary.“

  • Findable – snadno nalezitelná lidmi i stroji, uložena ve vhodném repozitáři a popsána kvalitními metadaty
  • Accessible – jsou uvedeny jasné informace o podmínkách a možnostech využití dat
  • Interoperable – data jsou uložena v otevřeném a standardizovaném formátu a popsána pomocí řízených slovníků
  • Reusable – metadata dostatečné popisují kontext dat: jejich licenci, původ, způsob sběru, vysvětlení zkratek, pojmenování a struktura souborů, použitý SW a další relevantní informace

FAIR principy podrobně FAIR checklist

Vznik a uložení dat

Vznik dat

Při sběru a ukládání dat je důležitá vhodná volba uložiště a pečlivá organizace a dokumentace.

Datová uložiště na MU Doporučení pro užívání uložišť

Organizace a pojmenování

Vhodné pojmenování závisí na typu souboru. Názvy by neměly být příliš dlouhé, ale zároveň by měly obsahovat dostatečné množství informací pro vyhledání a identifikaci obsahu souboru.

Zásady pojmenování souborů
  • Pro chronologické řazení využijte datum ve formátu YYYYMMDD (nebo obdobném).
  • Nepoužívejte v názvech speciální znaky jako ! @ # & % * $ (častokrát se využívají pro specifické úkony v různých operačních systémech).
  • Pokud máte více typů dat, měli byste rozlišit identifikátory (např. dotazník, rozhovor, poznámky).
  • Pokud máte více účastníků výzkumu, uveďte u názvu souboru jejich iniciály, v případě anonymních respondentů vytvořte každému unikátní kód.
  • Pokud pracujete v týmu, můžete uvést iniciály autorů souboru nebo toho, kdo naposledy v daném souboru provedl změny.

Tip: Pokud používáte v názvech zkratky či kódy, uchovejte také vysvětlivky.

Tipy pro znovupoužitelnost tabulkových dat

Co dělat
  • jasný popis sloupců na jednom řádku, začínajícím v buňce A1
  • název a legenda pro každý list
  • srozumitelné pojmenování souborů
  • ukládat každou tabulku a každý list zvlášť
Co nedělat
  • nevkládat do souboru grafy a komentáře
  • nepoužívat barvy pro přenos informace (brání strojovému zpracování)
  • nespojovat buňky
  • nepoužívat více listů v jednom souboru (v MS Excel), není podporováno ve formátech .csv a .tab

Dokumentace

Kromě samotného pojmenování souborů je důležité data vhodně popsat. Informace obsažené v dokumentaci závisí na typu dat. Může jít o jednoduchý read-me soubor, kde bude vysvětlen kontext výzkumu, někdy poslouží tabulka nebo komentáře uvnitř souboru. Pro označení veškerých „dat o datech“ slouží pojem metadata.

Dokumentace může obsahovat
  • Čas a místo sběru dat
  • Data o respondentech
  • Vysvětlivky zkratek
  • Číselníky
  • Informace o nástroji či softwaru, ve kterém byla data zpracována
  • Vzor informovaného souhlasu
  • Licenční podmínky pro využití nasbíraných dat
Sdílení dat

Výběr vhodného repozitáře

Existuje množství obecných i oborově specifických datových uložišť, do kterých lze ukládat samostatné datové sady nebo data k publikacím. Volba vhodného repozitáře závisí na typu dat. Může se řídit požadavky poskytovatele nebo časopisu.

  • Open Science Framework (OSF): platforma pro práci s výzkumnými daty v průběhu celého výzkumného procesu, včetně předregistrace výzkumu a hypotéz a případného zveřejnění výzkumných dat
  • Digitalia MUNI Arts: výzkumná infrastruktura nabízející dlouhodobé uložení a ochranu platforem (kolekce výzkumných dat s funkcemi pro prohlížení) i datových sad
  • Zenodo: oborově nespecifický repozitář pro ukládání libovolného typu souboru
  • Re3data, OpenDOAR: registry repozitářů výzkumných dat; mohou pomoci při výběru vhodného repozitáře
  • LINDAT: oborově specifický repozitář pro lingvistická data

Co zohlednit při výběru repozitáře

  • oborové zvyklosti
  • důvěryhodnost – poskytovatel může vyžadovat certifikovaný repozitář
  • přidělení perzistentního identifikátoru
  • poskytnutí otevřeného přístupu k datům
  • jasné uvedení podmínek využití dat (přidělení licence)
  • forma prezentace metadat
  • možnost verzování (nahrání aktualizovaných verzí dat při zachování původních)

Podklady zpracovala Kamila Nehybová v rámci odborné praxe; využity byly materiály připravené OS skupinou na MU. Přehled aktualizace a spravuje Mgr. Pavla Martinková.

Mgr. Pavla Martinková

Informační podpora studia a vědy

telefon: 549 49 4399
e‑mail:
Agenda a portfolio
  • správa webových stránek ÚK
  • poskytování referenčních a konzultačních služeb
  • realizace lekcí a workshopů
  • Open Science metodička

Zobrazit portfolio

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info