Cílem je objasnění předmětu, teorií, metod a praktických nástrojů zpracování odborných informací, vytváření a zpřístupňování automatizovaných informačních fondů a poskytování informačních služeb. Zvláštní pozornost se věnuje vybraným algoritmům zpracování textových informací v automatizovaných infor
Cílem je objasnění předmětu, teorií, metod a praktických nástrojů zpracování odborných informací, vytváření a zpřístupňování automatizovaných informačních fondů a poskytování informačních služeb. Zvláštní pozornost se věnuje vybraným algoritmům zpracování textových informací v automatizovaných informačních systémech (indexování, shlukování ap.).
Po úspěšném absolvování budou studenti schopni identifikovat hlavní problémy zpracování textových informací v automatizovaném informačním systému a posoudit možnosti jejich řešení.
Přednášky: - data, informace a informační proces, bariéry v informačním procesu a další charakteristiky „informačního věku“ - identifikační a obsahová analýza dokumentů; selekční jazyky - automatické indexování textů, invertovaný soubor, modely vyhledávání - základní lingvistické problémy automatického indexování textů a jejich algoritmická řešení (problém významnosti selekčních znaků, jejich morfologických variant, synonymie a podobných sémantických vztahů mezi nimi, homonymie) - n-gramové metody zpracování textů - metody redukce dimenzionality vektorové reprezentace textů - vybrané algoritmy klasifikace a shlukování textů - shrnutí problematiky aplikace, tvorby a údržby tezauru v rámci automatizovaného informačního systému (v návaznosti na předchozí metody) - automatizovaná sumarizace (jako rozšíření úlohy automatického indexování) Cvičení: - experimentální posouzení vhodnosti různých slov v textu k indexování, vyhodnocení jejich množství a morfologické variability, odhad důsledků pozorování pro větší objem textů - demonstrace praktických nástrojů použitelných v rámci indexování i jiného zpracování textových dokumentů (včetně samostatné práce studentů s některými z nich) - 2 průběžné testy
Základní:
Doporučená příprava:
Používej Markdown: ## Nadpis, **tučně**, `kód`, - odrážky, > citace