4IT346 - Zpracování Big Data

O předmětu

Předmět je zaměřen na práci s velkými datovými soubory a specifika strojového učení v případě big data.

Co se naučíš

Po úspěšném absolvování budou studenti schopni předzpracovat velké datové soubory a využít programovací jazyky specializované pro práci s big data pro základní úlohy strojového učení.

Obsah předmětu

• Úvod do problematiky big data. Charakterizace big data. Kde a kdy jsou užitečná big data. Technologie pro big data. • Úvod do Spark. Od Hadoop ke Spark. Vývoj Apache Hadoop a Apache Sparks. Technologie Spark. Spark API. Logická a fyzická architektura Spark. • Architektura (Py)Spark. Úvod do vnitřní architektury PySpark. Úvod do RDD. Úvod do Spark streaming. • Úvod do programování v Pyspark. Vytváření a správa Spark session. Prohlížení a základní manipulace s daty. Úvod do balíčku Koalas. • Manipulace s daty pomocí Spark. Exploratorní analýza dat pomocí PySparku. Transformace dat a feature engineering. • Pipeline pro strojové učení. Strojové učení a optimalizace hyperparametrů.

Jak uspět v předmětu

Doporučená příprava:

Pravidelná příprava během semestru místo drcení na zkoušku
Přednáškové slidy a materiály dostupné přes Moodle VŠE (dl.vse.cz)
Stará zkouška / typové otázky — zeptej se cvičícího nebo hledej na InSIS
Studijní skupiny a sdílení poznámek

Na co si dát pozor:

Přečti si sylabus — co je povinná vs. doporučená literatura
Podmínky zápočtu (zápočtové testy, projekty, docházka)
Termíny zkoušek zapisovat včas — kapacita bývá omezená

Doporučené zdroje

Sylabus na InSIS — osnova, literatura, garant
Moodle VŠE — prezentace a studijní materiály
Knihovna VŠE — přístup k e-knihám a databázím
SIS VŠE — výsledky zkoušek, zkušební termíny

Jak uspět v předmětu

Doporučená příprava:

Pravidelná příprava během semestru místo drcení na zkoušku
Přednáškové slidy a materiály dostupné přes Moodle VŠE (dl.vse.cz)
Stará zkouška / typové otázky — zeptej se cvičícího nebo hledej na InSIS
Studijní skupiny a sdílení poznámek s kolegy z ročníku

Na co si dát pozor:

Přečti si sylabus — co je povinná vs. doporučená literatura
Podmínky zápočtu (zápočtové testy, projekty, docházka)
Termíny zkoušek zapisovat včas — kapacita bývá omezená

Doporučené zdroje

Sylabus na InSIS — osnova, literatura, garant
Moodle VŠE — prezentace a studijní materiály od vyučujících
Knihovna VŠE — přístup k e-knihám a databázím (EBSCO, ProQuest...)
SIS VŠE — výsledky zkoušek, zkušební termíny, docházka

4IT346 - Zpracování Big Data

O předmětu

Co se naučíš

Obsah předmětu

Jak uspět v předmětu

Doporučené zdroje

Jak uspět v předmětu

Doporučené zdroje

✏️ Upravit wiki obsah

👨‍🏫 Učitelé

📋 Základní info

🔗 Odkazy