Cílem předmětu je (i) vybavit studenty základním repertoárem modelů, metod a technik pro zpracování textových dat, a to jak z oblasti datového managementu, tak i komputační lingvistiky; (ii) umožnit jim vyzkoušet si skládání komponent implementujících tyto metody/techniky do integrovaných posloupnos
Cílem předmětu je (i) vybavit studenty základním repertoárem modelů, metod a technik pro zpracování textových dat, a to jak z oblasti datového managementu, tak i komputační lingvistiky; (ii) umožnit jim vyzkoušet si skládání komponent implementujících tyto metody/techniky do integrovaných posloupností, a jejich aplikaci.
Po úspěšném absolvování budou studenti schopni: - porozumět počítačovým modelům, na kterých jsou založeny metody implementované v mnoha populárních nástrojích, - zhodnotit na základní úrovni jejich vhodnost pro různorodé úlohy a kontexty aplikace.
• Způsoby reprezentace textů pro analytické úlohy. • Porovnávání vzorů nad nestrukturovanými a částečně strukturovanými texty. • Indexování a vyhledávání dokumentů. • Základy lingvistického zpracování přirozeného jazyka. • Adaptace metod dolování z dat na texty: klasifikace, shlukování, dolování asociací. • Extrakce informací a webový scraping. • Integrované sady nástrojů pro zpracování a analýzu textů.
Základní:
Doporučená příprava:
Doporučená příprava:
Používej Markdown: ## Nadpis, **tučně**, `kód`, - odrážky, > citace