Předmět je zaměřen na práci s velkými datovými soubory a specifika strojového učení v případě big data.
Předmět je zaměřen na práci s velkými datovými soubory a specifika strojového učení v případě big data.
Po úspěšném absolvování budou studenti schopni předzpracovat velké datové soubory a využít programovací jazyky specializované pro práci s big data pro základní úlohy strojového učení.
• Úvod do problematiky big data. Charakterizace big data. Kde a kdy jsou užitečná big data. Technologie pro big data. • Úvod do Spark. Od Hadoop ke Spark. Vývoj Apache Hadoop a Apache Sparks. Technologie Spark. Spark API. Logická a fyzická architektura Spark. • Architektura (Py)Spark. Úvod do vnitřní architektury PySpark. Úvod do RDD. Úvod do Spark streaming. • Úvod do programování v Pyspark. Vytváření a správa Spark session. Prohlížení a základní manipulace s daty. Úvod do balíčku Koalas. • Manipulace s daty pomocí Spark. Exploratorní analýza dat pomocí PySparku. Transformace dat a feature engineering. • Pipeline pro strojové učení. Strojové učení a optimalizace hyperparametrů.
Doporučená příprava:
Doporučená příprava:
Používej Markdown: ## Nadpis, **tučně**, `kód`, - odrážky, > citace