STATISTICA Data Miner

STATISTICA Data Miner je nejobsáhlejší soubor nástrojů pro vytěžování dat, založený na velmi jednoduchém (ikonovém) uživatelském prostředí. Obsahuje velký výběr zcela integrovaných, okamžitě použitelných systémů řešení specifických problémů vytěžování dat (jednoduše upravitelných na řešení vlastních netypických problémů). Techniky vytěžování dat (Data Mining) jsou založeny na výkonných nástrojích obsažených v pěti modulech, které lze používat interaktivně nebo pro výstavbu, testování a zavedení nových nástrojů řešení.

Obecný grafický průzkumník s technologií OLAP
Obecný klasifikátor
Obecný modul tvorby modelů/vícerozměrný průzkumník
Obecný prediktor
Obecný průzkumník s technologií neuronových sítí
Nástroje k čištění a filtrování dat
Stromové klasifikační modely
Strojové učení
Vícerozměrné adaptivní regresní spliny

Základní přehled vlastností systému STATISTICA Data Miner

Obsahuje rozsáhlý výběr analytických technik (široký výběr algoritmů na shlukování, pro různé typy neuronových sítí, interaktivních regresních a klasifikačních stromů, vícerozměrného modelování /včetně např. MAR splinů/ a mnoho dalších; dle našich nejlepších znalostí také široký výběr grafických procedur v porovnání s libovolným produktem, který by měl sloužit podobným cílům).

Velký výběr připravených obsáhlých dataminingových projektů, které jsou kompletně přednastavené specialisty společnosti StatSoft a externími experty pro časté dataminingové problémy. Tyto projekty zahrnují i možnost porovnání několika alternativních modelů a výběr různých způsobů jejich použití (např. bagging, boosting, stacking, meta-learning apod.), výstup z těchto modelů je pomocí reportů v nejvyšší kvalitě.

Extrémně snadno ovladatelný grafický interface založený na metodě táhni a pusť (drag and drop), který je snadno použitelný i pro začínající uživatele, ale při tom umožňuje okamžitý přístup k používaným skriptům. Modely jsou tvořeny pomocí ikon a šipek. Ikony reprezentují analytické uzly (moduly). STATISTICA Data Miner umožňuje snadnou přípravu vlastních uzlů a jejich kompletní integraci do systému. Výsledkem je systém odpovídající specifickým požadavkům uživatele, kde není možné rozeznat, který z uzlů byl v systému původně, který byl připraven dle konkrétních požadavků uživatele společností StatSoft a který si připravil uživatel velmi jednoduše (např. jednoduše přetažením z Průzkumníka Windows do Prohlížeče uzlů) sám.

Velmi užitečné interaktivní nástroje pro průzkum dat (včetně metod jako drilling, slicing, dicing) a jejich vizualizaci.

Optimalizováno pro zpracování extrémně velkých dat i z více zdrojů simultánně.

Vysoce optimalizovaný přístup k databázím a datovým skladům včetně technologie IDP (In-Place Database Processing), která umožňuje číst data asynchronně přímo z databázového serveru (bez nutnosti importu dat a vytváření lokální kopie souboru). Takto je možné časově náročné dotazy přenést na stranu serveru.

Flexibilní možnosti deploymentu (použití dříve natrénovaných modelů na jiných datech či na vzorku dat) s možnostmi exportu modelů do PMML (Predictive Models Markup Language), C++, Java, Visual Basic. Možnost použití extrémně rychlého a efektivního deploymentu pomocí standardní syntaxe PMML, natrénované modely lze používat jak v desktop verzi, tak v client-server verzi (při použití systému WebSTATISTICA).

Standardní vývojové prostředí, které umožňuje spravovat optimalizované analytické objekty (uzly) za použití skriptů ve standardním Visual Basicu.

Otevřená COM-architektura, neomezené možnosti automatizace a podpora vlastních rozšíření (pomocí Visual Basicu, Java, C++) – plně programovatelný a přizpůsobitelný systém.

Kompletní podpora práce přes internet či intranet pomocí systému WebSTATISTICA (prakticky naprosto stejné ovládání jako v desktop verzi, ale v internetovém prohlížeči!). Zároveň tato verze podporuje „true distributed processing“ za použití více procesorů anebo počítačů.

Všechny procedury programů řady programů STATISTICA jsou dostupné jako uzly v systému STATISTICA Data Miner. Prostředí STATISTICA Data Miner je plně integrované s prostředím STATISTICA.

Výsledky lze přehledně organizovat v protokolech, tabulkách, pracovních sešitech apod. Lze je také okamžitě publikovat na internetu.

Možnost automatické aktualizace analýz a výsledků, kdykoliv dojde ke změně dat.
Demonstrační video k systému STATISTICA Data Miner lze spustit přímo z internetu ze stránek www.StatSoft.com nebo z www.youtube.com/statsoft#p

Pracovní prostředí systému STATISTICA Data Miner

Systém STATISTICA Data Miner obsahuje grafické uživatelské prostředí, vysoce optimalizované pro práci na datamingových projektech, v kterém lze propojovat data, analýzy či výsledky jednoduše pomocí přetažení ikon a propojení pomocí šipek. V jeden okamžik lze otevřít libovolné množství pracovních prostředí a například jednoduše pomocí myši přetahovat jednotlivé uzly (či celé větve uzlů) mezi těmito prostředími. Zároveň je podporován vstup do jednoho uzlu z více míst – typicky z více datových souborů, stejně tak z jednoho datového souboru lze provádět více analýz.

Pracovní prostředí je vždy otevřeno v okně přímo v prostředí STATISTICA, které samo o sobě je velice optimalizované a standardní („Microsoft-like“), čímž je dosaženo toho, že uživatel velmi rychle zvládne ovládání či přizpůsobení si tohoto prostředí (vlastní nabídky, panely nástrojů apod.).

Uživatel má možnost si jednotlivé uzly upravit podle potřeb svého datamingového projektu jednak nastavením z mnoha parametrů analýzy (dostupných pouhým poklepáním myší), ale také má přístup přímo i ke skriptu ve Visual Basicu, který daný uzel spravuje (jedná se o interface k danému uzlu, samotná procedura je vždy napsána v C++ a vysoce optimalizována tak, aby mohla být použita i pro velmi velké objemy dat, které se obvykle při dataminingu používají).

Další velmi důležitou vlastností je možnost plné integrace vlastních uzlů tím, že se buď napíší zcela od začátku, ale typicky spíše pomocí upravení některého již existujícího analytického uzlu. Takto přidaný uzel se chová naprosto stejně jako kterýkoliv uzel, který je v systému originálně.

Používání systému STATISTICA Data Miner s velkými soubory dat

STATISTICA Data Miner samozřejmě umožňuje okamžitě pracovat s různými formáty dat jako je soubor Excelu (.xls), soubor dBase (.dbf), textový soubor (.txt, .csv), soubor html (.htm, .html) a mnoha dalšími, ovšem typický datamingový projekt bude spíše zahrnovat získávání dat z databáze nebo datového skladu. Proto je STATISTICA Data Miner optimalizován pro zpracování extrémně velkých dat s miliony případů i miliony proměnných. Porovnání ukázala, že tento systém je až 2x rychlejší než jiné (i výrazně méně pokročilé a obsáhlé) systémy nabízené pro podobné aplikace.

Systém STATISTICA Data Miner může číst data z libovolné databáze, která podporuje OLE DB (což podporuje každá běžně používaná databáze). Součástí systému je i intuitivní grafické prostředí pro tvorbu dotazů do databází. Toto prostředí je velice snadno použitelné, ale zároveň poskytuje i přístup k textovému SQL dotazu pro případné nestandardní doplnění dotazu.

STATISTICA Data Miner obsahuje možnosti ke zpracování databází „na místě“ pomocí vysoce optimalizované technologie In-Place Databases Processing (IDP). Pomocí této technologie je možné rozdělit práci na lokální stanici s databázovým serverem a tak provádět dotaz do databáze a přitom simultánně může běžet výpočet na lokální stanici. Tímto způsobem lze zpracovávat i data takové velikosti, že by je jinak vůbec nebylo možno zpracovat na lokální stanici a zároveň výrazně zrychlit zpracování u „menších“ souborů dat.

Client-server verze programu STATISTICA Data Miner a datamining pomocí systému WebSTATISTICA

V desktop verzi programu STATISTICA Data Miner všechny výpočty probíhají na lokálním počítači a zdroje ostatních počítačů jsou použity pouze v případě, pokud je zadán interface do externí databáze pomocí In-Place Database Processing (IDP). IDP je technologie, která umožňuje asynchronní čtení dat přímo ze vzdáleného databázového serveru (za použití distribuovaného processingu, pokud jej podporuje server) a tím se obchází nutnost tvorby lokální kopie dat. Záznamy dat z databáze jsou posílány do počítače se systémem STATISTICA Data Miner asynchronně za použití CPU databázového serveru, přičemž STATISTICA Data Miner je simultánně zpracovává pomocí CPU lokálního počítače.

Client-server architektura

Při použití client-server verze systému STATISTICA Data Miner je lokální počítač použit pouze jako uživatelský interface k STATISTICA Data Miner a všechny výpočty probíhají na serveru. Client-server architektura využívá multithreadingu a technologie distribuovaného processingu (viz níže) a případně rozšíření na více serverů, které mohou pracovat paralelně. Tato architektura poskytuje zřejmé výhody v případě, že dataminingové projekty jsou velmi velké (např. výpočetně náročné či zahrnují zpracování extrémně velkých dat) – je možné je přemístit na stranu serveru a uvolnit tak lokální počítač na jinou práci.

Multithreading, distribuovaný processing

Mnoho dalších výhod přináší konkrétní implementace client-server architektury v systému STATISTICA Data Miner, která je založena na použití systému WebSTATISTICA. Rozšíření na client-server verzi je velice snadné a například všechny vlastní analytické uzly lze používat i při přechodu na client-server verzi. WebSTATISTICA je založena na pokročilém (true) distribuovaném processingu a multithreadingu tak, aby podporovala optimální zpracování velkých výpočtů. Tato technologie umožňuje rychlé zpracování i velmi velkých a výpočetně náročných projektů, neboť plně využívá více CPU na serveru a dokonce i více serverů, které pracují společně. Na obrázku je vidět projekt, který běží na serveru se čtyřmi procesory spolu se zobrazením výkonu serveru a tak je vidět plné využití všech čtyř CPU.

Neomezená rozšiřitelnost (paralelní processing)

Jednou z unikátních vlastností distribuovaného processingu tak, jak je zpracován v systému WebSTATISTICA, je flexibilita ve využití nejen všech CPU na daném serveru, ale také možnost rozšíření na více serverů. Tato unikátní vlastnost je důležitá, neboť přináší výrazný výpočetní zisk. Například, pokud jsou k dispozici tři servery každý se čtyřmi procesory, STATISTICA může jeden projekt spustit na všech 12 procesorech.

Uživatelské prostředí systému WebSTATISTICA

Implementace systému WebSTATISTICA umožňuje uživateli navrhovat, upravovat a spravovat dataminingové projekty na klientském počítači v prostředí internetového prohlížeče (např. Internet Explorer, Netscape) prakticky stejně jako v případě desktop aplikace!

Proto tedy klientská část aplikace může být spustitelná prakticky na libovolném počítači (např. notebook), pokud je připojen k internetu (příp. intranetu). Všechny výpočty a další operace probíhají na serveru s lepším procesorem a lepšími možnostmi ukládání dat (a tyto výpočty budou probíhat pomocí optimalizovaného multithreadingu a distribuovaného processingu a tak využívat maximum výkonu serveru).

Zpracovávání rozsáhlých dat

STATISTICA Data Miner umožňuje pracovat s různými formáty dat, jako je soubor Excelu (.xls), soubor dBase (.dbf), textový soubor (.txt, .csv), soubor html (.htm, .html) a mnoha dalšími, ovšem typický data miningový projekt bude spíše zahrnovat získávání dat z databáze nebo datového skladu. Proto je produkt optimalizován pro zpracování extrémně velkých dat s miliony případů i proměnných. Systém je až 2x rychlejší než software podobného zaměření na trhu.

Produkt může číst data z libovolné databáze, která podporuje OLE DBP/OLAP (tj. ze všech běžných databází). Součástí systému je i intuitivní grafické prostředí pro tvorbu dotazů do databází. Toto prostředí zároveň poskytuje i přístup k textové formě SQL dotazu pro případné nestandardní dotazy.

Přehled analytických uzlů systému STATISTICA Data Miner

Jednotlivé analytické moduly (a nyní ponecháme stranou nabídku stovek grafů) lze rozdělit do několika skupin na:
Základní statistické moduly
Pokročilé lineární a nelineární modely
Vícerozměrné průzkumné techniky
Specializované dataminingové moduly

Základní statistické moduly

Základní statistiky a tabulky

poskytuje přístup ke všem základním statistikám – výpočet mnoha popisných statistik (průměr, rozptyl, apod. včetně např. libovolných kvantilů), korelací či kontingenčních tabulek

ANOVA - detailní zpracování metod analýzy rozptylu

Vícerozměrná lineární regrese - základní regresní model

Neparametrická statistika - obsahuje robustní statistické testy a postupy
Prokládání rozdělení - nabízí možnosti k testování spojitých a diskrétních rozdělení

Pokročilé lineární a nelineární modely