STATISTICA Base Cz

Popisné statistiky, kategorizace a analýza dat

STATISTICA Base nabízí široký výběr metod pro výzkumné analýzy:

[STATISTICA - ukázka]

Popisné statistiky a grafy Program počítá všechny běžné, obecně užívané popisné statistiky, mediány, módy, kvartily, percentily, průměry a standardní odchylky, kvartil rozsahu, intervaly spolehlivosti pro průměr, šikmost a špičatost (s příslušnými standardními odchylkami), harmonické průměry, geometrické průměry a mnoho dalších speciálních popisných statistik a diagnostik. Stejně jako u všech ostatních modulů programu STATISTICA, usnadňuje výzkumnou analýzu široká škála dostupných grafů, např. box grafy s průměrem a směrodatnou odchylkou, histogramy, 2D a 3D bodové grafy, grafy normálního, polo-normálního i centrovaného rozdělení, Q-Q grafy, P-P grafy a další. Pro testování rozdělení je k dispozici rozsáhlý soubor testů, např. Kolmogorov-Smirnovův, Lillieforsův a Shapiro-Wilksův test, stejně jako procedury pro testování širokého rozsahu dalších rozdělení.

[STATISTICA - ukázka]

Analýzy po skupinách (Kategorizace). Lze počítat prakticky všechny popisné statistiky a sestavovat sumární grafy pro data, která jsou kategorizována (rozdělena) jednou nebo více skupinovými proměnnými. Např. pomocí několika málo kliků myší uživatel rozdělí data třeba podle pohlaví či věku a okamžitě má k dispozici kategorizované histogramy, box grafy s průměrem a směrodatnou odchylkou, grafy normálního rozdělení, bodové grafy atd. Při výběru více než dvou kategorizujících proměnných lze ihned generovat kaskády odpovídajících grafů. K dispozici jsou možnosti kategorizace spojitými proměnnými, např. lze rozdělit proměnnou do požadovaného počtu intervalů, nebo použít "on-line" dekodér na předdefinování stylu, jakým bude proměnná dekódována. Kategorizační kritéria mohou být prakticky libovolně složitá a mohou obsahovat relace ke všem proměnným v souboru dat. V systému existuje i speciální procedura na hierarchické rozdělení dat, která umožňuje rozdělovat data podle až šesti kategorizujících proměnných, počítat množství kategorizovaných grafů, popisných statistik a korelačních matic pro podskupiny (zadavatel může interaktivně požadovat vynechání některých faktorů v rozdělené tabulce a prozkoumávat statistiky pro libovolné marginální tabulky). Četné formátovací a popisné funkce umožňují vytvářet tabulky a zprávy v tzv. "publikační kvalitě". Ve výstupech lze používat dlouhá návěští a popisy pro jednotlivé proměnné. V kategorizační proceduře lze specifikovat i extrémně rozsáhlé konstrukce analýzy (např. 100 000 skupin pro jednu kategorizační proměnnou). Ve výsledku přesto dostaneme všechny příslušné ANOVA statistiky (včetně kompletní tabulky ANOVA, testů předpokladů jako je např. Levenův test homogenity rozptylu, výběr sedmi post-hoc testů atd.). Jako v ostatních modulech i zde se používá pro výpočty rozšířená přesnost čísel. Díky interaktivnosti programu je práce při průzkumu dat velmi snadná. Například lze vytvářet všechny typy grafů přímo z tabulek zobrazených výsledků prostým výběrem příslušné buňky nebo skupiny buněk myší. Stejně snadno lze jediným kliknutím myší vytvořit kaskády složitých (např. vícenásobně kategorizovaných) grafů. Kromě nespočetných předdefinovaných statistických grafů, sumárních statistik a relací lze přímočarou technikou ukaž-a-klikni vytvářet i vlastní "uživatelské" grafy či statistiky. Veškeré výzkumné grafické techniky jsou propojeny s analytickou částí, a tak umožňují uživateli vizuálně vyšetřovat vybraná data.

Korelace

[STATISTICA - ukázka]

Rozsáhlý soubor voleb umožňuje zkoumání korelací mezi proměnnými. Je možné počítat prakticky všechny známe míry korelace, např. Pearsonův "r" koeficient, Spearmanův "R" koeficient, Kendalův "tau" koeficient, Gamma, Phi, Cramerův "V" koeficient, kontingenční koeficient "C", Sommersův "D", koeficienty neurčitosti, parciální korelace, autokorelace, různé míry vzdálenosti atd. (nelineární regrese, regrese kritických dat a další speciální míry korelací jsou součástí procedury Nelineární odhady, případně procedury Analýza přežívání z modulu STATISTICA Pokročilé lineární a nelineární modely či dalších). Korelační matice lze počítat s použitím párových či případových doplnění chybějících dat nebo substitucí průměrem. Tam, kde je to potřebné, používá program pro numerické výpočty rozšířené přesnosti dat, a tím poskytuje výsledky s vysokou numerickou přesností. Výsledky jsou stejně jako ostatní numerické výstupy programu zobrazovány v posunovacích protokolech. K dispozici jsou nejrůznější formátovací funkce a rozsáhlé prostředky pro vizualizaci numerických výsledků. Uživatel může prostě myší vybrat příslušnou korelaci z protokolu a okamžitě zobrazit výběr grafického znázornění výsledku (např. bodový graf s intervaly spolehlivosti, různé dvojrozměrné histogramy distribuce, grafy rozdělení pravděpodobnosti atd.).

Průzkumník a detekce odlehlých hodnot. Nástroj pro průzkum v bodových grafech poskytuj uživateli možnost vybrat, případně zrušit výběr konkrétních jednotlivých bodů v grafu včetně možností úpravy jeho vlastností, i pro další výpočty v analýzách (vliv na regresní přímku atd.).

Formáty zobrazení čísel. Program poskytuje širokou škálu obecných formátů zobrazení korelací; signifikantní korelační koeficienty lze automaticky zvýraznit, každou buňku v tabulce výsledků lze libovolně rozšířit tak, aby se zobrazily odpovídající hodnoty "n" a "p", na požádání lze zobrazit detailní výsledky obsahující všechny deskriptivní statistiky (párové průměry a směrodatné odchylky, "B" váhy, atd.). Jako u jiných výsledků i korelační matice lze zobrazovat s použitím "zoom" funkce a interaktivně ovládaného číselného formátu (např. od +0.4 do 0.41258927645193). Stejně tak lze rozsáhlé matice komprimovat (pomocí funkce "zoom" nebo nastavením šířky číselného formátu tažením myší). Buňky obsahující hodnoty, které přesahují uživatelem nastavené meze lze označit červenou barvou.

[STATISTICA - ukázka]

Bodové grafy, skupinové analýzy. K dispozici jsou nejrůznější možnosti nastavení grafiky, které velice pomáhají při studiu vztahů mezi proměnnými. Lze sestavovat korelační matice kategorizované skupinovými proměnnými a znázorňované kategorizovanými bodovými grafy. Lze rovněž vytvářet rozdělení korelačních matic (jedna matice pro jednu podmnožinu dat) a výsledky zobrazovat ve skupinách výsledkových tabulek. Celou korelační matici lze sumarizovat do jednoho grafu (s prakticky neomezenou hustotou). Velké bodové matice pak lze studovat interaktivně pomocí funkce "zoom" uplatněné na vybrané části grafu (příp. postupným prohlížením - "rolováním" velkého grafu v "zoom" režimu - viz. ilustraci vlevo). Lze rovněž generovat kategorizované korelační matice (jedna matice pro každou podmnožinu dat). Případně lze vytvořit bodový graf matice pro více podmnožin dat a jednotlivé datové podmnožiny označit značkami. Při vyhledávání obecných závislostí lze použít další grafické prostředky (např. obrysové grafy, nevyhlazované povrchové grafy, ikony, atd.). Všechny tyto operace lze provádět pouhými několika poklepy myší. Pochopitelně je k dispozici celá množina zkratek (shortcuts) pro nejčastěji prováděné úkony. Souběžně lze na obrazovce zobrazit libovolné množství výsledkových tabulek a grafů, což značně usnadňuje provádění interaktivní průzkumné analýzy a porovnávání.

Základní statistiky tabulek výsledků

[STATISTICA - ukázka]

STATISTICA je integrovaný analytický systém, který produkuje výsledky ve formě tabulek, jež lze použít (bez jakékoli další úpravy) jako vstup následných analýz. Pro tabulky výsledků předchozích analýz se dají spočítat základní statistiky (a všechny ostatní statistické analýzy); např. můžete velice rychle spočítat tabulku průměrů 2000 proměnných, a potom tuto tabulku použít jako vstupní datový soubor a analyzovat vypočtené průměry "napříč" proměnnými. Základní statistiky jsou vám k dispozici v každém okamžiku analýzy a dají se aplikovat na jakoukoli výstupní tabulku.

Blokové statistiky. Kromě všech popisných statistik, které se dají spočítat pro všechny tabulky, máte také možnost označit si bloky dat v tabulce a na těchto datech provést statistické výpočty či z nich utvořit grafy. Analýzu můžete provádět buď podle řádků nebo podle sloupců; např. si můžete nechat vytvořit graf profilů řádků, apod. Celkově vám tyto blokové funkce umožňují vytvořit statistiky a grafy z hodnot v libovolně zvolených (zvýrazněných) blocích dat všech druhů tabulek.

Interaktivní pravděpodobnostní kalkulátor

[STATISTICA - ukázka]

Flexibilní interaktivní pravděpodobnostní kalkulátor (viz obrázek vlevo) lze vyvolat z libovolného panelu nástrojů. Kalkulátor obsahuje široký výběr distribucí, například distribuce Beta, Cauchyho, Chi-kvadrát, Exponenciální, Extremních hodnot, F, Gamma, Laplaceovo, Lognormální, Logistické, Paretovo, Rayleigh, t (Studentovo), Weibullovo, a Z (Normální) ) Součástí kalkulátoru je část zobrazující interaktivně (hustotu) aktualizované grafy (graf hustoty distribuční funkce a graf distribuční funkce). Při vizuálním zkoumání jednotlivých distribucí lze s výhodou použít speciální technologii STATISTICA Smart MicroScrolls, která dovoluje přejít přímo bud na poslední významnou číslici (stiskem levého tlačítka myši) nebo těsně před poslední významnou číslici (stiskem pravého tlačítka myši). Kalkulátor skýtá prostředky pro vytváření uživatelsky upravených rozdělení a jejich grafů s požadovanými useknutými oblastmi. Tím lze kalkulátor použít k interaktivnímu vyšetřování rozdělení (např. lze vyšetřovat jednotlivé pravděpodobnosti v závislosti na parametrech tvaru rozdělení).

T-testy a další testy rozdílností skupin

[STATISTICA - ukázka]

Program umožňuje počítat t-testy pro závislé i nezávislé výběry dat stejně jako Hottelingův T2 (viz rovněž informace o modulu ANOVA/MANOVA a GLM (General Linear Models)) pro jednorozměrná i vícerozměrná porovnání průměrů). Stejně jako u ostatních funkcí i zde jsou k dispozici rozsáhlé diagnostické a grafické prostředky volitelné z nabídky výsledků. Např. pro t-test nezávislých výběrů jsou k dispozici prostředky pro výpočet t-testu se separátními variačními odhady, Levenův test homogenity rozptylu, různé krabicové grafy, kategorizované histogramy a grafy rozdělení, kategorizované bodové grafy atd. Další (více specializované) testy skupinových rozdílností jsou obsaženy v mnoha dalších modulech, např. v modulu Neparametrické statistiky nebo v modulu Analýza přežívání.

Tabulky četností, kontingenční tabulky a vícerozměrná analýza

[STATISTICA - ukázka]

Program obsahuje mnoho prostředků pro tabelování spojitých, kategorizovaných a vícenásobných kontrolních proměnných nebo vícenásobných dichotomií. K dispozici je široká nabídka formátovacích funkcí pro sestavování tabulek. Např. u tabulky obsahující vícenásobné dichotomie nebo kontrolní proměnné lze marginální počty a příslušná procentuální vyjádření založit na celkovém počtu respondentů nebo odpovědí, vícenásobné kontrolní proměnné lze zpracovat do párů a pod. Program dále obsahuje prostředky pro ošetření chybějících dat. Tabulky četnosti lze rovněž sestavovat na základě uživatelem definovaných logických výběrových podmínek (libovolné složitosti, s odkazy na libovolné relace mezi proměnnými a datovými soubory), sloužících k přiřazování případů do jednotlivých kategorií v tabulce. Všechny tabulky lze libovolně editovat podle potřeby. Např. křížové tabulky mohou v každé buňce obsahovat procenta pro sloupec, řádek i celek, lze použít dlouhá návěští pro popis kategorií tabulky, hodnoty mimo uživatelem zvolené meze lze zvýraznit atd. Program může zobrazit kumulativní i relativní četnosti, Logit a Probit transformované četnosti, normální očekávané četnosti, očekávané a zbytkové četnosti v křížových tabulkách atd. Testy dostupné pro statistické hodnocení křížových tabulek zahrnují: Pearsonův test, test maximálně věrohodnostní, Yates-corrected Chi-kvadrát, McNemarův Chi-kvadrát, Fisherův exaktní test (jedno i dvoustranný), Phi-test a tetrachordický "r" test. Další dostupné statistiky zahrnují Kendallův "tau" (a,b) test, Gamma test, Spearmanův "r" test, Sommerův "D" test, koeficienty neurčitosti atd.

Grafy. Grafické prostředky obsahují jednoduché, kategorizované (vícenásobné) a trojrozměrné histogramy, křížové histogramy a mnoho dalších typů grafů včetně unikátního interakčního grafu četností, který sumarizuje četnosti pro složité křížové tabulky (podobný grafu průměrů v ANOVA modulu). Pomocí programu lze vytvářet a studovat kaskády i těch nejsložitějších grafů.

Metody vícerozměrné regrese

[STATISTICA - ukázka]

Regresní modul je obsáhlá množina lineárních a nelineárních regresních technik. Zahrnuje regrese jednoduché, vícerozměrné, krokové (dopředu, dozadu nebo po skupinách), hierarchické, nelineární (včetně polynomických, exponenciálních, logaritmických apod.), hřebenové regrese (s oříznutím nebo bez oříznutí) a metodu vážených nejmenších čtverců. Program počítá soubor statistik a rozšířených diagnostik včetně kompletních regresních tabulek (se standardními chybami pro B, Beta, R² a upravené R² a tabulky regrese ANOVA, parciální korelační matice, korelace a kovariance pro regresní váhy, inverzní matice, Durbin-Watsonovu d statistiku, Mahalanobisovy a Cookovy vzdálenosti, zbytková residua, intervaly spolehlivosti pro predikované hodnoty a mnoho dalších.

Predikované a reziduální hodnoty. Rozsáhlá residuální a přehledová analýza má k dispozici velký výběr grafů, včetně množiny bodových grafů, histogramů, grafů rozdělení, centrovaných rozdělení, částečných korelačních grafů a dalších. Výsledky pro jednotlivé hodnocené případy lze vizualizovat pomocí ikonových grafů a dalších vícerozměrných grafů propojených přímo s výsledkovými tabulkami. Předpovědní funkce umožňuje uživateli provádět podmíněné ( what-if ) analýzy a interaktivně počítat predikované výsledky v závislosti na uživatelsky definovaných prediktorech.

Kategorizovaná analýza; související procedury. Analyzovat lze i extrémně velké regresní modely. Sada přídavných funkcí obsahuje i regresní modul schopný zpracovat modely s tisíci proměnnými stejně jako dvoustupňovou regresi nejmenších čtverců nebo Box-Coxovu a Box-Tidwellovu transformaci s grafy. Program STATISTICA rovněž obsahuje modul obecných nelineárních odhadů, který je schopen počítat prakticky jakýkoliv uživatelsky definovaný nelineární model a obsahuje výběr předdefinovaných modelů, včetně logitové a probitové analýzy a dalších. Dále je v programu zahrnut modul strukturálních modelů SEPATH, který umožňuje počítat extrémně rozsáhlé korelace, kovariance a momentové matice.

Neparametrické statistiky

[STATISTICA - ukázka]

Modul neparametrických statistik přináší obsáhlý výběr analytických a popisných statistik zahrnující všechny běžné testy a několik speciálních funkcí. Mezi dostupnými statistickými funkcemi jsou: Wald-Wolfowitzův test, Mann-Whitneyův "U" test (s přesnými pravděpodobnostmi [namísto normálním rozdělením] pro malé vzorky), Kolmogorov-Smirnovovy testy, Wilcoxonův párový test, Kruskal-Wallisova ANOVA, mediánový test, znaménkový test, Kendallův koeficient shody, Friedmanova ANOVA, Cochranův "Q" test, Chi-kvadrát, "V" statistiky kvadrátů, Phi, Gamma, Sommerovy kontingenční koeficienty, McNemarův test a další. (Specializované neparametrické testy a statistiky jsou rovněž součástí mnoha dalších modulů, např. analýzy přežívání, analýzy procesů a dalších). Stejně jako u všech ostatních modulů programu STATISTICA, i zde jsou všechny testy propojeny s grafy (zahrnujícími nejrůznější verze bodových grafů, specializovaných krabicových grafů, čárových grafů, histogramů a mnoha dalších 2D a 3D zobrazení).

ANOVA/MANOVA

Modul ANOVA/MANOVA je podmnožinou modulu Obecné lineární modely a je schopen provádět jednorozměrné i vícerozměrné analýzy rozptylu návrhu experimentů, a to s i bez opakovaného měření; modul Obecné lineární modely vám umožní určit si jakýkoli lineární model s proměnnými pro kategorizaci nebo predikci, náhodné efekty a faktory opakovaných měření.

Uživatelská rozhraní. Všechny návrhy můžete provádět přímočaře a pomocí jasných a funkčních pojmenování svých proměnných (nemusíte používat technické pojmy, např. specifikovat matice nějakých přihlouplých kódů). I méně zkušení uživatelé dokáží s tímto programem analyzovat velice složité modely. ANOVA/MANOVA poskytuje tři alternativní uživatelská rozhraní pro tvorbu modelu: (1) Průvodce návrhem, který vám pomůže ve všech fázích specifikace návrhu, (2) jednoduché dialogové rozhraní, v němž budete mít možnost určit si model volbou proměnných, kódů, úrovní a ostatních možností, a (3) Syntaktický editor, v němž si celý model můžete vytvořit pomocí standardní syntaxe pro tvorbu modelů.

Výpočetní metody. Program normálně pro návrh experimentů používá parametrizaci s omezeným sigma a při nevyváženosti nebo nekompletnosti experimentu využívá přístup efektivní hypotézy (viz. Hocking, 1981). Dají se vypočítat hypotézy typu I, II, III a IV, stejně jako typ V a VI, které provádějí testy konzistentní s typickými analýzami částečných návrhů experimentů v průmyslových aplikacích (viz. také popis modulu Navrhování experimentů).

Statistiky výsledků. Výsledky, které produkuje modul ANOVA/MANOVA nejsou nijak omezeny. Můžete použít stejné analytické nástroje dostupné i v modulu Obecné lineární modely. Můžete použít souhrnné tabulky, jednorozměrné i vícerozměrné výsledky pro faktory opakovaných měření s více než 2 úrovněmi, nastavení podle Greenhouse-Geissera a Huynh-Feldta, grafy interakcí, detailní popisné a reziduální statistiky, plánovaná a post-hoc porovnání, testování hypotéz, detailní diagnostické statistiky a grafy (např. histogram reziduí, testy homogenity rozptylu, grafy průměrů ku směrodatným odchylkám, atd.)

Prokládání rozdělení

[STATISTICA - ukázka]

Prostředky modulu "Prokládání rozdělení" umožňují provádět porovnání rozdělení proměnné s širokou paletou teoretických rozdělení. Data lze testovat na následující rozděllení: normální, rovnoměrné, exponenciální, GAMMA, lognormální, Chí-kvadrát, Weibullovo, Gompertzovo, Binomické, Poissonovo, Geometrické a Bernoulliho. Shodu lze testovat pomocí Chi-kvadrát testu, jednovýběrového Kolmogorov-Smirnovova testu (testovací parametr lze nastavovat) nebo Lillieforsova a Shapiro-Wilksova testu. Navíc, shoda konkrétního hypotetického rozložení s empirickým rozložením může být vyjádřena pomocí histogramů (standardních nebo kumulativních) proložených vybranými funkcemi. Z výsledkové tabulky lze vytvořit spojnicové či sloupcové grafy očekávaných a pozorovaných četností. Další prostředky pro testování rozdělení najde uživatel v modulu "Analýza procesů", kde lze počítat odhady parametru metodou maximální věrohodnosti pro tato rozdělení: Beta, exponenciální, Extrémních hodnot (typ I,Gumbel), Gamma, Log-normální, Rayleighovo a Weibullovo. Tento modul obsahuje rovněž prostředky pro samočinný výběr optimálního rozložení pro testovaná data. Další prostředky pro testování předdefinovaných nebo uživatelem definovaných funkcí prakticky neomezené složitosti jsou popsány v modulu: "Nelineární odhady".

Minimální požadavky: Windows XP/Vista/7/8, procesor 1GHz, 1GB RAM, MS Internet Explorer min. verze 6