kurz Data Mining
Tento dvoudenní kurz je určen osobám, které chtějí odhalit informace a znalosti ukryté v datech. Cílem tohoto kurzu není ukázat jen vhodné postupy, ale také způsob, jak co nejlépe prezentovat výsledky. V průběhu kurzu budou prezentovány nejrůznější techniky: korelační analýza, regresní analýza, časové řady, klasifikační stromy, neuronové sítě a další. Na závěr budou ukázány konkrétní příklady z oblasti vytěžování dat. V průběhu celého kurzu budou účastníci pracovat s modulem STATISTICA Data Miner.
Program kurzu
- Úvod
- Základní informace o softwaru STATISTICA
- Výukové zdroje pro software a možnosti nápovědy
- Úvod do vytěžování dat, produkt
- Princip, možnosti, využití
- Práce s recepty (wizardem)
- Příprava dat (načtení, výběr proměnných, transformace, vzorkování dat, odstranění duplicitních vzorů, filtrace odlehlých hodnot, oprava chybějících údajů)
- Detekce a případné odstranění podobných vstupních příznaků (prediktorů)
- Výběr důležitých prediktorů pro požadovanou úlohu
- Vytváření klasifikačních a regresních modelů
- Vyhodnocení kvality vytvořeného modelů
- Nasazení modelu v praxi
- Klasifikační a regresní stromy
- Princip, možnosti, využití
- CART stromy
- CHAID stromy
- Vytváření klasifikačních a regresních stromů v interaktivním režimu (generování stromu, prořezávání stromu, výběr rozhodovacích proměnných, výběr mezí)
- Generované stromy (Boosted Trees)
- Náhodné lesy (Random Forests)
- Lineární modely
- Princip regrese
- (Obecné) lineární modely
- Zobecněné lineární modely
- Zobecněné aditivní modely
- MARSplines
- Metody shlukování
- K-průměrů (k-means)
- Hierarchické a EM shlukování
- Automatizované neuronové sítě
- Princip umělých neuronových sítí, základní typy (MLP, RBF, Kohonenova síť)
- Automatizovaný a vlastní návrh sítě
- Metody strojového učení
- Bayesův klasifikátor
- SVM
- k-NN klasifikátor
- Analýza nezávislých komponent (ICA)
- Text Mining
- Účel, princip a zdroje text miningu
- Vytvoření a práce s indexovým souborem
- Asociační pravidla a sekvence
- Nasazení modelů na reálná data z praxe
- Kvalita získaných modelů
- Korelační analýza
- ROC křivka
- Grafy zisku a navýšení (Gains/Lift cart)
- Metody výběru vhodných příznaků
- Sdružování rozsáhlých skupin hodnot příznaků (Binning)
- Základy práce v pracovní ploše (Workspaces)
Předpokládané znalosti účastníků
CenaTermíny a čas kurzu
Kurz zahrnuje- Tištěné výukové materiály, elektronické materiály na USB, měsíční testovací verzi softwaru, oběd, občerstvení, kávu, certifikát o absolvování kurzu.
Termín, cena i program kurzu se mohou změnit, jeho konání závisí na dosažení minimálního počtu přihlášených.
Podívejte se, co si myslí o našich kurzech samotní účastníci. Navštivte sekci Očima účastníků.