Základy práce s výzkumnými daty
Co jsou výzkumná data
Výzkumná data jsou jakékoliv informace, které byly shromážděny, pozorovány, či vytvořeny za účelem zjištění nebo ověření výsledků výzkumu. Mohou mít různou podobu a formu. Při jejich zveřejňování rozlišujeme doprovodná data k publikaci a samostatné datové sady. Digitální výzkumná data v humanitních oborech mohou být digitalizovaná i born digital (původně digitální).
Příklady výzkumných dat
- mediální data (audio a video nahrávky, fotografie, skeny, 3D modely)
- přepisy rozhovorů, odpovědi z dotazníků
- terénní poznámky, deníky
- software, skripty
Cyklus správy výzkumných dat
- Vznik dat: plán výzkumu, Data Management Plan, sběr dat a jejich uložení, generování některých metadat
- Zpracování dat: digitalizace, vyčištění, validace, anonymizace, popis dalšími metadaty, uložení zpracovaných dat
- Analýza dat: interpretace a analýza dat, vizualizace, tvorba závěrů, příprava publikace
- Ochrana dat: archivní uložení, zálohování, migrace formátů, dokumentace
- Sdílení dat: řízení přístupu, vlastnictví a copyright, licence
- Opakované využití dat: nový výzkum, partnerství, inovativní znovuvyužití dat, výuka a vzdělávání
Data Management Plan
Data Management Plan (DMP, plán správy dat) je dokument popisující nakládání s daty v průběhu výzkumného projektu. Vzniká v počáteční fázi výzkumu a průběžně se aktualizuje. Bývá vyžadován ze strany poskytovatelů financí (např. Horizon Europe, TA ČR, GA ČR).
Konkrétní formulace otázek se liší podle poskytovatele podpory, základními oblastmi jsou:
- sběr dat,
- popis dat (dokumentace a metadata),
- právní a etické otázky,
- způsob uchování a přístupu,
- plán pro smazání nebo dlouhodobé uchování dat,
- plán pro sdílení dat,
- určení odpovědnosti za jednotlivé oblasti.
Konzultace k DMP Záznam přednášky o DMP
Doporučené nástroje
- Data Stewardship Wizard: nástroj pro podporu správy výzkumných dat nabízí sady otázek ke všem fázím výzkumného procesu; umožňuje export DMP (Data Management Plan) v různých šablonách (včetně Horizon Europe), spolupráci v týmu se sledováním provedených změn nebo také propojení s projekty v INETu
- DMPonline: méně robustní nástroj pro tvorbu DMP; umožňuje institucionální přihlášení, obsahuje nápovědu k jednotlivým polím a nabízí export v různých formátech
FAIR principy při práci s daty
Zkratka FAIR označuje čtyři principy, které by data měla splňovat, především při jejich sdílení. Otevřený přístup není podmínkou – ne všechna data je možné zpřístupnit, například pokud jde o citlivá data. Důležitou zásadou je také právo prvního využití náležející výzkumníkovi nebo týmu, který data nasbíral. Data mohou mít různou míru otevřenosti, zpřístupnění dat dle FAIR principů neznamená automatické zpřístupnění komukoli. Východiskem je princip „As open as possible, as close as necessary.“
- Findable – snadno nalezitelná lidmi i stroji, uložena ve vhodném repozitáři a popsána kvalitními metadaty
- Accessible – jsou uvedeny jasné informace o podmínkách a možnostech využití dat
- Interoperable – data jsou uložena v otevřeném a standardizovaném formátu a popsána pomocí řízených slovníků
- Reusable – metadata dostatečné popisují kontext dat: jejich licenci, původ, způsob sběru, vysvětlení zkratek, pojmenování a struktura souborů, použitý SW a další relevantní informace
Vznik dat
Při sběru a ukládání dat je důležitá vhodná volba uložiště a pečlivá organizace a dokumentace.
Datová uložiště na MU Doporučení pro užívání uložišť
Organizace a pojmenování
Vhodné pojmenování závisí na typu souboru. Názvy by neměly být příliš dlouhé, ale zároveň by měly obsahovat dostatečné množství informací pro vyhledání a identifikaci obsahu souboru.
Zásady pojmenování souborů
- Pro chronologické řazení využijte datum ve formátu YYYYMMDD (nebo obdobném).
- Nepoužívejte v názvech speciální znaky jako ! @ # & % * $ (častokrát se využívají pro specifické úkony v různých operačních systémech).
- Pokud máte více typů dat, měli byste rozlišit identifikátory (např. dotazník, rozhovor, poznámky).
- Pokud máte více účastníků výzkumu, uveďte u názvu souboru jejich iniciály, v případě anonymních respondentů vytvořte každému unikátní kód.
- Pokud pracujete v týmu, můžete uvést iniciály autorů souboru nebo toho, kdo naposledy v daném souboru provedl změny.
Tip: Pokud používáte v názvech zkratky či kódy, uchovejte také vysvětlivky.
Tipy pro znovupoužitelnost tabulkových dat
Co dělat
- jasný popis sloupců na jednom řádku, začínajícím v buňce A1
- název a legenda pro každý list
- srozumitelné pojmenování souborů
- ukládat každou tabulku a každý list zvlášť
Co nedělat
- nevkládat do souboru grafy a komentáře
- nepoužívat barvy pro přenos informace (brání strojovému zpracování)
- nespojovat buňky
- nepoužívat více listů v jednom souboru (v MS Excel), není podporováno ve formátech .csv a .tab
Dokumentace
Kromě samotného pojmenování souborů je důležité data vhodně popsat. Informace obsažené v dokumentaci závisí na typu dat. Může jít o jednoduchý read-me soubor, kde bude vysvětlen kontext výzkumu, někdy poslouží tabulka nebo komentáře uvnitř souboru. Pro označení veškerých „dat o datech“ slouží pojem metadata.
Dokumentace může obsahovat
- Čas a místo sběru dat
- Data o respondentech
- Vysvětlivky zkratek
- Číselníky
- Informace o nástroji či softwaru, ve kterém byla data zpracována
- Vzor informovaného souhlasu
- Licenční podmínky pro využití nasbíraných dat
Výběr vhodného repozitáře
Existuje množství obecných i oborově specifických datových uložišť, do kterých lze ukládat samostatné datové sady nebo data k publikacím. Volba vhodného repozitáře závisí na typu dat. Může se řídit požadavky poskytovatele nebo časopisu.
- Open Science Framework (OSF): platforma pro práci s výzkumnými daty v průběhu celého výzkumného procesu, včetně předregistrace výzkumu a hypotéz a případného zveřejnění výzkumných dat
- Digitalia MUNI Arts: výzkumná infrastruktura nabízející dlouhodobé uložení a ochranu platforem (kolekce výzkumných dat s funkcemi pro prohlížení) i datových sad
- Zenodo: oborově nespecifický repozitář pro ukládání libovolného typu souboru
- Re3data, OpenDOAR: registry repozitářů výzkumných dat; mohou pomoci při výběru vhodného repozitáře
- LINDAT: oborově specifický repozitář pro lingvistická data
Co zohlednit při výběru repozitáře
- oborové zvyklosti
- důvěryhodnost – poskytovatel může vyžadovat certifikovaný repozitář
- přidělení perzistentního identifikátoru
- poskytnutí otevřeného přístupu k datům
- jasné uvedení podmínek využití dat (přidělení licence)
- forma prezentace metadat
- možnost verzování (nahrání aktualizovaných verzí dat při zachování původních)
Podklady zpracovala Kamila Nehybová v rámci odborné praxe; využity byly materiály připravené OS skupinou na MU. Přehled aktualizace a spravuje Mgr. Pavla Martinková.
Agenda a portfolio
- správa webových stránek ÚK
- poskytování referenčních a konzultačních služeb
- realizace lekcí a workshopů
- Open Science metodička