O předmětu
Předmět je zaměřen na práci s velkými datovými soubory a na specifika strojového učení v případě velkých dat.
Co se naučíš
Po úspěšném absolvování budou studenti schopni předzpracovat velké datové soubory a využít programovací jazyky specializované pro práci s velkými daty pro základní úlohy strojového učení.
Obsah předmětu
- Úvod do problematiky big data a. Charakterizace big data b. Kde a kdy jsou užitečná velká data c. Technologie pro velká data 2. Úvod do Spark a. Od Hadoop ke Spark b. Vývoj Apache Hadoop a Apache Sparks c. Technologie Spark d. Spark API e. Logická a fyzická architektura Spark 3. Architektura (Py)Spark a. Úvod do vnitřní architektury PySpark b. Úvod do RDD c. Úvod do Spark streaming 4. Úvod do programování v Pyspark a. Vytváření a správa Spark session b. Prohlížení a základní manipulace s daty c. Úvod do balíčku Koalas 5. Manipulace s daty pomocí Spark a. Exploratorní analýza dat pomocí PySparku b. Transformace dat a feature engineering c. Pipeline pro strojové učení d. Strojové učení a optimalizace hyperparametrů
Jak uspět v předmětu
Doporučená příprava:
- Pravidelná příprava během semestru místo drcení na zkoušku
- Přednáškové slidy a materiály dostupné přes Moodle VŠE (dl.vse.cz)
- Stará zkouška / typové otázky — zeptej se cvičícího nebo hledej na InSIS
- Studijní skupiny a sdílení poznámek
Na co si dát pozor: - Přečti si sylabus — co je povinná vs. doporučená literatura
- Podmínky zápočtu (zápočtové testy, projekty, docházka)
- Termíny zkoušek zapisovat včas — kapacita bývá omezená
Doporučené zdroje
Jak uspět v předmětu
Doporučená příprava:
- Pravidelná příprava během semestru místo drcení na zkoušku
- Přednáškové slidy a materiály dostupné přes Moodle VŠE (dl.vse.cz)
- Stará zkouška / typové otázky — zeptej se cvičícího nebo hledej na InSIS
- Studijní skupiny a sdílení poznámek s kolegy z ročníku
Na co si dát pozor: - Přečti si sylabus — co je povinná vs. doporučená literatura
- Podmínky zápočtu (zápočtové testy, projekty, docházka)
- Termíny zkoušek zapisovat včas — kapacita bývá omezená
Doporučené zdroje