Základy práce s výzkumnými daty

Základní pojmy

Co jsou výzkumná data

Výzkumná data jsou jakékoliv informace, které byly shromážděny, pozorovány, či vytvořeny za účelem zjištění nebo ověření výsledků výzkumu. Mohou mít různou podobu a formu. Rozlišujeme doprovodná data k publikaci a samostatné datové sady. Digitální výzkumná data v humanitních oborech mohou být digitalizovaná i born digital (původně digitální).

Příklady výzkumných dat

  • mediální data (video záznamy, fotografie, 3D modely)
  • přepisy rozhovorů, terénní poznámky, deníky
  • historické záznamy
  • tabulky

Cyklus správy výzkumných dat

  1. Vznik dat: plán výzkumu, Data Management Plan*, sběr dat a jejich uložení, generování některých metadat
  2. Zpracování dat: digitalizace, vyčištění, validace, anonymizace, popis dalšími metadaty, uložení zpracovaných dat
  3. Analýza dat: interpretace a analýza dat, vizualizace, tvorba závěrů, příprava publikace
  4. Ochrana dat: archivní uložení, zálohování, migrace formátů, dokumentace
  5. Sdílení dat: řízení přístupu, vlastnictví a copyright, licence
  6. Opakované využití dat: nový výzkum, partnerství, inovativní znovuvyužití dat, výuka a vzdělávání
Cyklus správy výzkumných dat z openscience.muni.cz

* Data Management Plan (plán správy dat, DMP) je označení pro dokument, který popisuje nakládání s daty v průběhu výzkumného projektu. Je vyžadován některými poskytovateli financí.

DMP podrobnějí

Vznik dat

Vznik dat

Při sběru a ukládání dat je důležitá vhodná volba uložiště a pečlivá organizace a dokumentace.

Datová uložiště na MU Doporučení pro užívání uložišť

Organizace a pojmenování

Vhodné pojmenování závisí na typu souboru. Názvy by neměly být příliš dlouhé, ale zároveň by měly obsahovat dostatečné množství informací pro vyhledání a identifikaci obsahu souboru.

Zásady pojmenování souborů
  • Pro chronologické řazení využijte datum ve formátu YYYYMMDD (nebo obdobném).
  • Nepoužívejte v názvech speciální znaky jako ! @ # & % * $ (častokrát se využívají pro specifické úkony v různých operačních systémech).
  • Pokud máte více typů dat, měli byste rozlišit identifikátory (např. dotazník, rozhovor, poznámky).
  • Pokud máte více účastníků výzkumu, uveďte u názvu souboru jejich iniciály, v případě anonymních respondentů vytvořte každému unikátní kód.
  • Pokud pracujete v týmu, můžete uvést iniciály autorů souboru nebo toho, kdo naposledy v daném souboru provedl změny.

Tip: Pokud používáte v názvech zkratky či kódy, uchovejte také vysvětlivky.

Tipy pro znovupoužitelnost tabulkových dat
Co dělat
  • jasný popis sloupců na jednom řádku, začínajícím v buňce A1
  • název a legenda pro každý list
  • srozumitelné pojmenování souborů
  • ukládat každou tabulku a každý list zvlášť
Co nedělat
  • nevkládat do souboru grafy a komentáře
  • nepoužívat barvy pro přenos informace (brání strojovému zpracování)
  • nespojovat buňky
  • nepoužívat více listů v jednom souboru (v MS Excel), není podporováno ve formátech .csv a .tab

Dokumentace

Kromě samotného pojmenování souborů je důležité data vhodně popsat. Informace obsažené v dokumentaci závisí na typu dat. Může jít o jednoduchý read-me soubor, kde bude vysvětlen kontext výzkumu, někdy poslouží tabulka nebo komentáře uvnitř souboru. Pro označení veškerých „dat o datech“ slouží pojem metadata.

Dokumentace může obsahovat
  • Čas a místo sběru dat
  • Data o respondentech
  • Vysvětlivky zkratek
  • Číselníky
  • Informace o nástroji či softwaru, ve kterém byla data zpracována
  • Vzor informovaného souhlasu
  • Licenční podmínky pro využití nasbíraných dat
Sdílení dat

Sdílení dat

Motivací pro sdílení dat může být ověření správnosti výsledků a znovuvyužití již získaných dat. Data mohou mít různou míru otevřenosti a jejich sdílení má svá specifika, například je nelze vždy zcela zpřístupnit. Data lze uložit do repozitáře nebo publikovat ve speciálním časopise.

Repozitáře pro uložení dat

Existují repozitáře oborové, institucionální nebo univerzální.

Čím se řídit při výběru repozitáře
  • Přidělení perzistentního identifikátoru (např. DOI)
  • Důvěryhodnost repozitáře a jeho certifikace
  • Poskytnutí otevřeného přístupu
  • Přidělení licence pro data a jasné uvedení podmínek využití
  • Existence stránky s metadatay (tzv. landing page)
  • Možnost verzování

Časopisy pro publikování dat

  • recenzované časopisy: Nature: Scientific Data, Journal of Open Archaeology Data
  • publikovány bývají vědecky cenné datové soubory: jazykový korpus, bibliografie
  • zahrnují popis dat, jejich původ, kontext vzniku
  • nezahrnují analýzu dat

Podklady zpracovala Kamila Nehybová v rámci odborné praxe; využity byly materiály připravené OS skupinou na MU. Přehled aktualizace a spravuje Mgr. Pavla Martinková.

Mgr. Pavla Martinková

Informační podpora studia a vědy

telefon: 549 49 4399
e‑mail:
Agenda a portfolio
  • správa webových stránek ÚK
  • poskytování referenčních a konzultačních služeb
  • realizace lekcí a workshopů
  • Open Science metodička

Zobrazit portfolio

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info