O předmětu

Předmět je zaměřen na práci s velkými datovými soubory a na specifika strojového učení v případě velkých dat.

Co se naučíš

Po úspěšném absolvování budou studenti schopni předzpracovat velké datové soubory a využít programovací jazyky specializované pro práci s velkými daty pro základní úlohy strojového učení.

Obsah předmětu

  1. Úvod do problematiky big data a. Charakterizace big data b. Kde a kdy jsou užitečná velká data c. Technologie pro velká data 2. Úvod do Spark a. Od Hadoop ke Spark b. Vývoj Apache Hadoop a Apache Sparks c. Technologie Spark d. Spark API e. Logická a fyzická architektura Spark 3. Architektura (Py)Spark a. Úvod do vnitřní architektury PySpark b. Úvod do RDD c. Úvod do Spark streaming 4. Úvod do programování v Pyspark a. Vytváření a správa Spark session b. Prohlížení a základní manipulace s daty c. Úvod do balíčku Koalas 5. Manipulace s daty pomocí Spark a. Exploratorní analýza dat pomocí PySparku b. Transformace dat a feature engineering c. Pipeline pro strojové učení d. Strojové učení a optimalizace hyperparametrů

Jak uspět v předmětu

Doporučená příprava:

  • Pravidelná příprava během semestru místo drcení na zkoušku
  • Přednáškové slidy a materiály dostupné přes Moodle VŠE (dl.vse.cz)
  • Stará zkouška / typové otázky — zeptej se cvičícího nebo hledej na InSIS
  • Studijní skupiny a sdílení poznámek
Na co si dát pozor:
  • Přečti si sylabus — co je povinná vs. doporučená literatura
  • Podmínky zápočtu (zápočtové testy, projekty, docházka)
  • Termíny zkoušek zapisovat včas — kapacita bývá omezená

Doporučené zdroje

Jak uspět v předmětu

Doporučená příprava:

  • Pravidelná příprava během semestru místo drcení na zkoušku
  • Přednáškové slidy a materiály dostupné přes Moodle VŠE (dl.vse.cz)
  • Stará zkouška / typové otázky — zeptej se cvičícího nebo hledej na InSIS
  • Studijní skupiny a sdílení poznámek s kolegy z ročníku
Na co si dát pozor:
  • Přečti si sylabus — co je povinná vs. doporučená literatura
  • Podmínky zápočtu (zápočtové testy, projekty, docházka)
  • Termíny zkoušek zapisovat včas — kapacita bývá omezená

Doporučené zdroje

  • Sylabus na InSIS — osnova, literatura, garant
  • Moodle VŠE — prezentace a studijní materiály od vyučujících
  • Knihovna VŠE — přístup k e-knihám a databázím (EBSCO, ProQuest...)
  • SIS VŠE — výsledky zkoušek, zkušební termíny, docházka

✏️ Upravit wiki obsah

Používej Markdown: ## Nadpis, **tučně**, `kód`, - odrážky, > citace

Heslo si vyžádej od správce wiki.