Základy práce s výzkumnými daty
Co jsou výzkumná data
Výzkumná data jsou jakékoliv informace, které byly shromážděny, pozorovány, či vytvořeny za účelem zjištění nebo ověření výsledků výzkumu. Mohou mít různou podobu a formu. Při jejich zveřejňování rozlišujeme doprovodná data k publikaci a samostatné datové sady. Digitální výzkumná data v humanitních oborech mohou být digitalizovaná i born digital (původně digitální).
Příklady výzkumných dat
- mediální data (audio a video nahrávky, fotografie, skeny, 3D modely)
- přepisy rozhovorů, odpovědi z dotazníků
- terénní poznámky, deníky
- software, skripty
Cyklus správy výzkumných dat
- Vznik dat: plán výzkumu, Data Management Plan, sběr dat a jejich uložení, generování některých metadat
- Zpracování dat: digitalizace, vyčištění, validace, anonymizace, popis dalšími metadaty, uložení zpracovaných dat
- Analýza dat: interpretace a analýza dat, vizualizace, tvorba závěrů, příprava publikace
- Ochrana dat: archivní uložení, zálohování, migrace formátů, dokumentace
- Sdílení dat: řízení přístupu, vlastnictví a copyright, licence
- Opakované využití dat: nový výzkum, partnerství, inovativní znovuvyužití dat, výuka a vzdělávání
Vznik dat
Při sběru a ukládání dat je důležitá vhodná volba uložiště a pečlivá organizace a dokumentace.
Datová uložiště na MU Doporučení pro užívání uložišť
Organizace a pojmenování
Vhodné pojmenování závisí na typu souboru. Názvy by neměly být příliš dlouhé, ale zároveň by měly obsahovat dostatečné množství informací pro vyhledání a identifikaci obsahu souboru.
Zásady pojmenování souborů
- Pro chronologické řazení využijte datum ve formátu YYYYMMDD (nebo obdobném).
- Nepoužívejte v názvech speciální znaky jako ! @ # & % * $ (častokrát se využívají pro specifické úkony v různých operačních systémech).
- Pokud máte více typů dat, měli byste rozlišit identifikátory (např. dotazník, rozhovor, poznámky).
- Pokud máte více účastníků výzkumu, uveďte u názvu souboru jejich iniciály, v případě anonymních respondentů vytvořte každému unikátní kód.
- Pokud pracujete v týmu, můžete uvést iniciály autorů souboru nebo toho, kdo naposledy v daném souboru provedl změny.
Tip: Pokud používáte v názvech zkratky či kódy, uchovejte také vysvětlivky.
Tipy pro znovupoužitelnost tabulkových dat
Co dělat
- jasný popis sloupců na jednom řádku, začínajícím v buňce A1
- název a legenda pro každý list
- srozumitelné pojmenování souborů
- ukládat každou tabulku a každý list zvlášť
Co nedělat
- nevkládat do souboru grafy a komentáře
- nepoužívat barvy pro přenos informace (brání strojovému zpracování)
- nespojovat buňky
- nepoužívat více listů v jednom souboru (v MS Excel), není podporováno ve formátech .csv a .tab
Dokumentace
Kromě samotného pojmenování souborů je důležité data vhodně popsat. Informace obsažené v dokumentaci závisí na typu dat. Může jít o jednoduchý read-me soubor, kde bude vysvětlen kontext výzkumu, někdy poslouží tabulka nebo komentáře uvnitř souboru. Pro označení veškerých „dat o datech“ slouží pojem metadata.
Dokumentace může obsahovat
- Čas a místo sběru dat
- Data o respondentech
- Vysvětlivky zkratek
- Číselníky
- Informace o nástroji či softwaru, ve kterém byla data zpracována
- Vzor informovaného souhlasu
- Licenční podmínky pro využití nasbíraných dat
Podklady zpracovala Kamila Nehybová v rámci odborné praxe; využity byly materiály připravené OS skupinou na MU. Přehled aktualizace a spravuje Mgr. Pavla Martinková.
Agenda a portfolio
- fakultní Open Science metodička
- fakultní data stewardka
- realizace lekcí a workshopů
- správa webových stránek ÚK