Základy práce s výzkumnými daty
Co jsou výzkumná data
Výzkumná data lze charakterizovat jako materiál, který byl shromážděn či vytvořen za účelem zjištění nebo ověření výsledků výzkumu. Mohou mít různou podobu a formu. Při jejich zveřejňování rozlišujeme doprovodná data k publikaci a samostatné datové sady. Digitální výzkumná data v humanitních oborech mohou být digitalizovaná i born digital (původně digitální).
Příklady výzkumných dat
- mediální data (audio a video nahrávky, fotografie, skeny, 3D modely)
- přepisy rozhovorů, odpovědi z dotazníků
- terénní poznámky, deníky
- software, skripty (lze charakterizovat také jako doprovodný materiál k datům)
Výzkumná data v humanitních vědách
- Rozmanitá a nestrukturovaná: Data v humanitních vědách existují v heterogenních formátech (texty, obrázky, zvukové nahrávky atd.), kterým často není daná pevná struktura.
- Otevřená interpretaci: Data mohou vyžadovat interpretaci a kvalitativní analýzu, kontext je pro další práci s nimi zásadní.
- Etické a právní otázky: Při výzkumu s lidskými subjekty je potřeba orientovat se v problematice GDPR, a také zvažovat etické aspekty (např. u výzkumu zranitelných skupin). Výzkumníci nemusí být vlastníky nebo autory dat (např. v případě kulturních artefaktů) a je potřeba řešit autorskoprávní otázky.
Cyklus správy výzkumných dat
- Vznik dat: plán výzkumu, plán správy dat (Data Management Plan), sběr dat a jejich uložení, generování některých metadat
- Zpracování dat: digitalizace, vyčištění, validace, anonymizace, popis dalšími metadaty, uložení zpracovaných dat
- Analýza dat: interpretace a analýza dat, vizualizace, tvorba závěrů, příprava publikace
- Ochrana dat: archivní uložení, zálohování, migrace formátů, dokumentace
- Sdílení dat: řízení přístupu, vlastnictví a copyright, licence
- Opakované využití dat: nový výzkum, partnerství, inovativní znovuvyužití dat, výuka a vzdělávání
Vznik dat
Při sběru a ukládání dat v průběhu výzkumného projektu je důležitá vhodná volba uložiště a pečlivá organizace a dokumentace. Takto spravovaná data jsou pak lépe připravena pro případné sdílení.
Ukládání dat v průběhu projektu
Data by měla být uložena na vhodném místě s dostatečným zabezpečením a nastavenými procesy zálohování, v závislosti na potřebách výzkumného týmu nebo jednotlivce. Doporučení pro užívání uložišť kategorizují data dle míry citlivosti a shrnují řešení dostupná na MU.
Datová uložiště na MU Doporučení pro užívání uložišť
Organizace a pojmenování
Pro dlouhodobou orientaci v datech je vhodné stanovit si na začátku výzkumného projektu systém pojmenovávání složek a souborů, a to nejen při práci v týmu. Názvy by neměly být příliš dlouhé, ale zároveň by měly obsahovat dostatečné množství informací pro vyhledání a identifikaci obsahu.
Tipy pro pojmenování složek a souborů
- Pro chronologické řazení lze využít datum ve formátu YYYYMMDD (nebo obdobném).
- Nepoužívejte v názvech diakritiku ani speciální znaky, jako např. ! @ # & % * $ (využívají se pro specifické úkony v různých operačních systémech). Namísto mezery použijte pomlčku -, podtržítko _ nebo VelkaPismena.
- Název může reflektovat různé typy dat (např. dotazník, rozhovor, poznámky).
- U více účastníků výzkumu lze v názvech souborů a složek uvádět jejich iniciály nebo unikátní kód.
- Pokud používáte v názvech zkratky či kódy, uchovejte v samostatném souboru také jejich vysvětlivky.
Dokumentace
Kromě samotného pojmenování souborů je důležité data vhodně popsat. Informace obsažené v dokumentaci závisí na typu dat. Může jít o textový README soubor, kde budou uvedeny potřebné informace:
- informace o autorech (ideálně spolu s ORCID),
- podmínky využití dat (licence),
- popis dat a metodologie jejich sběru,
- popis případného zpracování,
- informace o verzích,
- informace o financování (např. v případě grantové podpory),
- odkazy na související zdroje (např. publikovaný článek),
- další údaje, které mohou být užitečné pro znovupoužití dat.
Tipy pro znovupoužitelnost tabulkových dat
Co dělat
- jasný popis sloupců na jednom řádku, začínajícím v buňce A1
- název a legenda pro každý list
- srozumitelné pojmenování souborů
- ukládat každou tabulku a každý list zvlášť
Co nedělat
- nevkládat do souboru grafy a komentáře
- nepoužívat barvy pro přenos informace (brání strojovému zpracování)
- nespojovat buňky
- nepoužívat více listů v jednom souboru (v MS Excel), není podporováno ve formátech .csv a .tab
Sdílení dat
Sdílení výzkumných dat napomáhá transparentnosti vědeckého procesu, replikovatelnosti výzkumu a také je mnohdy vyžadováno poskytovateli financí. Pro nezveřejnění dat existují legitimní důvody, které je potřeba popsat v plánu správy dat.
Co zohlednit při výběru repozitáře
- Oborové zvyklosti: Pokud je to možné, zvolte pro uložení dat oborově zaměřený repozitář. Může to napomoci šíření a využívanosti vašich dat.
- Důvěryhodnost: Tu zajistí certifikace (např. CoreTrustSeal), ale nejen certifikované repozitáře jsou považovány za důvěryhodné. Například hojně využívaný oborově nespecifický repozitář Zenodo nemá ceritifikaci.
- Přidělení perzistentního identifikátoru.
- Možnost otevřeného přístupu k datům.
- Jasné uvedení podmínek využití dat: Přidělení licence bývá součástí vkládání datové sady do repozitáře.
- Forma prezentace metadat, zahrnutá metadatová pole.
- Možnost verzování: Možnost nahrání aktualizovaných verzí dat při zachování původních.
Vybrané oborové datové repozitáře Rejstřík repozitářů Re3data
Podklady zpracovala Kamila Nehybová v rámci odborné praxe; využity byly materiály připravené OS skupinou na MU. Přehled aktualizace a spravuje Mgr. Pavla Martinková.
Agenda a portfolio
- fakultní Open Science metodička
- fakultní data stewardka
- realizace lekcí a workshopů
- správa webových stránek ÚK