O předmětu

Předmět je zaměřen na práci s velkými datovými soubory a specifika strojového učení v případě big data.

Co se naučíš

Po úspěšném absolvování budou studenti schopni předzpracovat velké datové soubory a využít programovací jazyky specializované pro práci s big data pro základní úlohy strojového učení.

Obsah předmětu

• Úvod do problematiky big data. Charakterizace big data. Kde a kdy jsou užitečná big data. Technologie pro big data. • Úvod do Spark. Od Hadoop ke Spark. Vývoj Apache Hadoop a Apache Sparks. Technologie Spark. Spark API. Logická a fyzická architektura Spark. • Architektura (Py)Spark. Úvod do vnitřní architektury PySpark. Úvod do RDD. Úvod do Spark streaming. • Úvod do programování v Pyspark. Vytváření a správa Spark session. Prohlížení a základní manipulace s daty. Úvod do balíčku Koalas. • Manipulace s daty pomocí Spark. Exploratorní analýza dat pomocí PySparku. Transformace dat a feature engineering. • Pipeline pro strojové učení. Strojové učení a optimalizace hyperparametrů.

Jak uspět v předmětu

Doporučená příprava:

  • Pravidelná příprava během semestru místo drcení na zkoušku
  • Přednáškové slidy a materiály dostupné přes Moodle VŠE (dl.vse.cz)
  • Stará zkouška / typové otázky — zeptej se cvičícího nebo hledej na InSIS
  • Studijní skupiny a sdílení poznámek
Na co si dát pozor:
  • Přečti si sylabus — co je povinná vs. doporučená literatura
  • Podmínky zápočtu (zápočtové testy, projekty, docházka)
  • Termíny zkoušek zapisovat včas — kapacita bývá omezená

Doporučené zdroje

Jak uspět v předmětu

Doporučená příprava:

  • Pravidelná příprava během semestru místo drcení na zkoušku
  • Přednáškové slidy a materiály dostupné přes Moodle VŠE (dl.vse.cz)
  • Stará zkouška / typové otázky — zeptej se cvičícího nebo hledej na InSIS
  • Studijní skupiny a sdílení poznámek s kolegy z ročníku
Na co si dát pozor:
  • Přečti si sylabus — co je povinná vs. doporučená literatura
  • Podmínky zápočtu (zápočtové testy, projekty, docházka)
  • Termíny zkoušek zapisovat včas — kapacita bývá omezená

Doporučené zdroje

  • Sylabus na InSIS — osnova, literatura, garant
  • Moodle VŠE — prezentace a studijní materiály od vyučujících
  • Knihovna VŠE — přístup k e-knihám a databázím (EBSCO, ProQuest...)
  • SIS VŠE — výsledky zkoušek, zkušební termíny, docházka

✏️ Upravit wiki obsah

Používej Markdown: ## Nadpis, **tučně**, `kód`, - odrážky, > citace

Heslo si vyžádej od správce wiki.