Základy práce s výzkumnými daty

Základní pojmy

Co jsou výzkumná data

Výzkumná data lze charakterizovat jako materiál, který byl shromážděn či vytvořen za účelem zjištění nebo ověření výsledků výzkumu. Mohou mít různou podobu a formu. Při jejich zveřejňování rozlišujeme doprovodná data k publikaci a samostatné datové sady. Digitální výzkumná data v humanitních oborech mohou být digitalizovaná i born digital (původně digitální).

Příklady výzkumných dat

  • mediální data (audio a video nahrávky, fotografie, skeny, 3D modely)
  • přepisy rozhovorů, odpovědi z dotazníků
  • terénní poznámky, deníky
  • software, skripty (lze charakterizovat také jako doprovodný materiál k datům)
Výzkumná data v humanitních vědách
  • Rozmanitá a nestrukturovaná​: Data v humanitních vědách existují v heterogenních formátech (texty, obrázky, zvukové nahrávky atd.), kterým často není daná pevná struktura.​
  • Otevřená interpretaci​: Data mohou vyžadovat interpretaci a kvalitativní analýzu, kontext je pro další práci s nimi zásadní.
  • Etické a právní otázky​: Při výzkumu s lidskými subjekty je potřeba orientovat se v problematice GDPR, a také zvažovat etické aspekty (např. u výzkumu zranitelných skupin). Výzkumníci nemusí být vlastníky nebo autory dat (např. v případě kulturních artefaktů) a je potřeba řešit autorskoprávní otázky. 

Cyklus správy výzkumných dat

  1. Vznik dat: plán výzkumu, plán správy dat (Data Management Plan), sběr dat a jejich uložení, generování některých metadat
  2. Zpracování dat: digitalizace, vyčištění, validace, anonymizace, popis dalšími metadaty, uložení zpracovaných dat
  3. Analýza dat: interpretace a analýza dat, vizualizace, tvorba závěrů, příprava publikace
  4. Ochrana dat: archivní uložení, zálohování, migrace formátů, dokumentace
  5. Sdílení dat: řízení přístupu, vlastnictví a copyright, licence
  6. Opakované využití dat: nový výzkum, partnerství, inovativní znovuvyužití dat, výuka a vzdělávání
Cyklus správy výzkumných dat z openscience.muni.cz
Vznik a uložení dat

Vznik dat

Při sběru a ukládání dat v průběhu výzkumného projektu je důležitá vhodná volba uložiště a pečlivá organizace a dokumentace. Takto spravovaná data jsou pak lépe připravena pro případné sdílení.

Ukládání dat v průběhu projektu

Data by měla být uložena na vhodném místě s dostatečným zabezpečením a nastavenými procesy zálohování, v závislosti na potřebách výzkumného týmu nebo jednotlivce. Doporučení pro užívání uložišť kategorizují data dle míry citlivosti a shrnují řešení dostupná na MU.

Datová uložiště na MU Doporučení pro užívání uložišť

Organizace a pojmenování

Pro dlouhodobou orientaci v datech je vhodné stanovit si na začátku výzkumného projektu systém pojmenovávání složek a souborů, a to nejen při práci v týmu. Názvy by neměly být příliš dlouhé, ale zároveň by měly obsahovat dostatečné množství informací pro vyhledání a identifikaci obsahu. 

Tipy pro pojmenování složek a souborů
  • Pro chronologické řazení lze využít datum ve formátu YYYYMMDD (nebo obdobném).
  • Nepoužívejte v názvech diakritiku ani speciální znaky, jako např. ! @ # & % * $ (využívají se pro specifické úkony v různých operačních systémech). Namísto mezery použijte pomlčku -, podtržítko _ nebo VelkaPismena. 
  • Název může reflektovat různé typy dat (např. dotazník, rozhovor, poznámky).
  • U více účastníků výzkumu lze v názvech souborů a složek uvádět jejich iniciály nebo unikátní kód.
  • Pokud používáte v názvech zkratky či kódy, uchovejte v samostatném souboru také jejich vysvětlivky.

Dokumentace

Kromě samotného pojmenování souborů je důležité data vhodně popsat. Informace obsažené v dokumentaci závisí na typu dat. Může jít o textový README soubor, kde budou uvedeny potřebné informace: 

  • informace o autorech (ideálně spolu s ORCID),
  • podmínky využití dat (licence),
  • popis dat a metodologie jejich sběru,
  • popis případného zpracování,
  • informace o verzích,
  • informace o financování (např. v případě grantové podpory),
  • odkazy na související zdroje (např. publikovaný článek),
  • další údaje, které mohou být užitečné pro znovupoužití dat. 
Tipy pro znovupoužitelnost tabulkových dat
Co dělat
  • jasný popis sloupců na jednom řádku, začínajícím v buňce A1
  • název a legenda pro každý list
  • srozumitelné pojmenování souborů
  • ukládat každou tabulku a každý list zvlášť
Co nedělat
  • nevkládat do souboru grafy a komentáře
  • nepoužívat barvy pro přenos informace (brání strojovému zpracování)
  • nespojovat buňky
  • nepoužívat více listů v jednom souboru (v MS Excel), není podporováno ve formátech .csv a .tab
Sdílení dat

Sdílení dat

Sdílení výzkumných dat napomáhá transparentnosti vědeckého procesu, replikovatelnosti výzkumu a také je mnohdy vyžadováno poskytovateli financí. Pro nezveřejnění dat existují legitimní důvody, které je potřeba popsat v plánu správy dat.

Co zohlednit při výběru repozitáře
  1. Oborové zvyklosti: Pokud je to možné, zvolte pro uložení dat oborově zaměřený repozitář. Může to napomoci šíření a využívanosti vašich dat.
  2. Důvěryhodnost: Tu zajistí certifikace (např. CoreTrustSeal), ale nejen certifikované repozitáře jsou považovány za důvěryhodné. Například hojně využívaný oborově nespecifický repozitář Zenodo nemá ceritifikaci. 
  3. Přidělení perzistentního identifikátoru.
  4. Možnost otevřeného přístupu k datům.
  5. Jasné uvedení podmínek využití dat: Přidělení licence bývá součástí vkládání datové sady do repozitáře.
  6. Forma prezentace metadat, zahrnutá metadatová pole.
  7. Možnost verzování: Možnost nahrání aktualizovaných verzí dat při zachování původních.

Vybrané oborové datové repozitáře Rejstřík repozitářů Re3data


Podklady zpracovala Kamila Nehybová v rámci odborné praxe; využity byly materiály připravené OS skupinou na MU. Přehled aktualizace a spravuje Mgr. Pavla Martinková.

Mgr. Pavla Martinková

Informační a datová podpora vědy

telefon: 549 49 4399
e‑mail:
Agenda a portfolio
  • fakultní Open Science metodička
  • fakultní data stewardka
  • realizace lekcí a workshopů
  • správa webových stránek ÚK

Zobrazit portfolio

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info