Datová kvalita je důležitou, ovšem velmi často podceňovanou částí jakékoliv datově analytické úlohy. Cílem předmětu je seznámit studenty s typickými problémy při zpracování dat a pochopit význam datové kvality jako nedílné součásti každé datové analýzy.
Datová kvalita je důležitou, ovšem velmi často podceňovanou částí jakékoliv datově analytické úlohy. Cílem předmětu je seznámit studenty s typickými problémy při zpracování dat a pochopit význam datové kvality jako nedílné součásti každé datové analýzy.
Po úspěšném absolvování budou studenti schopni chápat význam datové kvality, důsledků analýzy či zpracování dat s nedostatečnou datovou kvalitou a znát vybrané postupy k ověřování kvality dat a nápravy.
• Úvod do problematiky datové kvality. Co je datová kvalita, proč je třeba zabývat se datovou kvalitou. • Reálné příklady datově analytických úloh s problémy v oblasti datové kvality. Identifikace míst s nízkou datovou kvalitou. • Elementární metody na ověření datové kvality – profilace, histogramy. • Elementární metody na zlepšení datové kvality – základní metody čištění dat. • Pokročilejší metody datové kvality – řešení problémů datové kvality ex-post – unifikace, etalony, číselníky, čištění dat. • Pokročilejší metody datové kvality – proces řízení datové kvality, prvky, role, odpovědnosti. • Datová kvalita v oblasti semistrukturovaných, velkých, nekompletních dat či dat s měnícími se atributy.
Základní:
Doporučená příprava:
Používej Markdown: ## Nadpis, **tučně**, `kód`, - odrážky, > citace