STATISTICA Text Miner
STATISTICA Text Miner je přídavným modulem systému STATISTICA Data Miner vhodným pro převod nestrukturovaného textu do smysluplných shluků, které představují cennou informaci pro podporu rozhodování. Většině uživatelů používajících data miningové metody je dobře známo, že reálná data přicházejí v nejrůznějších formách, ne vždy je možné vstupní data jednoduše analyzovat. Snahou systému STATISTICA Text Miner je získat základní informace z tradičně strukturovaných dat, které nejsou patrné na první pohled.
STATISTICA Text Miner je integrován do systému STATISTICA nebo STATISTICA Data Miner a obdobně jako jiné produkty společnosti StatSoft, nabízí i tento systém ty nejvýkonnější nástroje dostupné na trhu. Tyto vlastnosti byly do systému implementovány s ohledem na efektivitu a škálovatelnost a zavádění vícevláknové počítačové technologie. Tato technologie umožňuje získat optimální výkon ze serveru, který podporuje použití více procesorů.
Obdobně jako komponenty systému STATISTICA Data Miner, STATISTICA Text Miner byl speciálně navržen jako obecný nástroj s otevřenou architekturou pro vytěžování informací. Vlastnost získávání/výběr a jiné analytické nástroje dostupné v systému STATISTICA Text Miner nejsou pouze použitelné na textové dokumenty a webové stránky, ale také mohou být aplikovány na indexované, tříděné, shlukované vstupní soubory včetně bitmap a hudebních souborů.
Hlavní funkce systému STATISTICA Text Miner
Přístup k dokumentům - Program obsahuje několik možností pro přístup k dokumentům v několika formátech, zahrnující soubory typu .txt (text), .pdf (Adobe), .ps (PostScript), .html, .xml (Web-formáty) a většinu formátu Microsoft Office (např: .doc, .rtf).
- Flexibilní možnosti uživatelského prostředí (a automatické funkce) umožňují výběr velkého počtu souborů (např. výběr všech dokumentů v konkrétním místě adresařové struktury).
- Program plně podporuje internetové technologie. Vzhledem k tomu mohou být dokumenty zpracovávány z webu - zpracování začne na příslušné hlavní stránce (URL). Zpracovány budou všechny dokumenty připojené k této stránce a rovněž dokumenty příslušné k daným dokumentům atd. Uživatelé si mohou přesně stanovit úroveň vnoření.
- Jména souborů a URL mohou být také uchována v textových proměnných a v souborech typu STATISTICA. V tomto případě, program nemusí zpracovávat aktuální text uložený v textové proměnné, ale správně analyzuje odkazy na textové dokumenty a URL. Z tohoto důvodu mohou být číselné a textové informace (obsáhlé dokumenty) uložené po případech (pozorováních) a následující analýzy mohou být provedeny na datových souborech, kde pro každé pozorování je dostupná číselná a nestrukturovaná textová informace (např. rok narození pacienta, výška, váha, spolu s lékařským popisem příznaků nemoci).
- Systém poskytuje flexibilní import pro seznam názvů souborů nebo URL do sloupců tabulky.
Zpracování dokumentů Dokumenty mohou být předzpracovány dříve než (lze i současně s) proběhne indexování všech dokumentů: - Vylučovací pravidla mohou být aplikována (pro vyloučení běžných slov jako např: "a", "the", "to", "is" v anglickém jazyce atd.) před dalšími algoritmy pro úpravu textu (anglická slova jako "traveled", "traveling" představují instanci téhož slova "travel").
- STATISTICA Text Miner podporuje následující jazyky: dánština, holandština, angličtina, francouzština, němčina, italština, portugalština, španělština, švédština a další ( pro aktuální informace kontaktuje pobočku společnosti StatSoft). Architektura programu je navržena tak, aby bylo možné s minimálním úsilím přidat další jazyk.
- V dalším kroku, program indexuje předzpracované dokumenty a vypočte četnosti pro všechna slova a všechny dokumenty; tyto četnosti jsou vstupem pro všechny následující analýzy.
- Před vytvořením datového souboru STATISTICA, který obsahuje četnosti, mohou být aplikovány dodatečné filtry, např. četnosti pro jednotlivé (nejčastěji vyskytující se) slova v dokumentu mohou být normalizovány (vztaženo k délce každého dokumentu), transformovány (např. logaritmická transformace) a volitelně zmenšeny "komprimovány" např. použitím algoritmů pro výběr příznaků jako SVD (singular value decomposition, speciálně optimalizováno pro zpracování velkých řídkých matic).
- Získaný datový soubor s číselnými informacemi (např. dimenze SVD, četnosti, relativní četnosti, nejčastěji se vyskytující slova, atd. je připravený pro další analýzy).
- Je k dispozici několik možností, jakým způsobem zapsat informace získané z textu do datového souboru, nebo rovnou do databáze.
Analýza dokumentů Všechny statistické metody mohou být aplikovány na číselné souhrny reprezentující texty: - Jednoduché souhrnné statistiky mohou odhalit nejčastěji vyskytující se slova v dokumentech.
- Převedením dokumentů do SVB dimenze (např. užitím PCA), mohou být vytvořeny dimenzionální mapy, které slouží pro porovnání podobnosti dokumentů.
- Převedením dokumentů do dimenzí založených na originálních (transformovaných) počtech slov, mohou být paralelně vytvořeny mapy dokumentů a slov, které odrážejí "smysl" dokumentů.
- Shlukovací techniky (jako EM nebo k-Means) mohou být použity pro identifikování shluků podobných dokumentů.
- Prediktivní data miningové techniky mohou být použity pro vytvoření souvislostí souhrnů dokumentů s jinými ukazateli, např. podvodný úmysl, lékařská diagnóza, atd.
- Klíčové analytické komponenty vyžadující rozsáhlé zpracování dat využívají vícevláknové zpracování z důvodu dosažení co nejvyššího výkonu.
Integrace se systémy STATISTICA, STATISTICA Data Miner a WebSTATISTICA. STATISTICA Text Miner je plně integrován do systémové řady
STATISTICA; nejedná se o samostatný produkt vytvořený jiným dodavatelem, a který by byl "nějak propojen" se systémem
STATISTICA!. Díky této vlastnosti patří systém
STATISTICA Text Miner mezi jedinečné systémy na trhu. Podpora plné integrace umožňuje integraci systému
STATISTICA Text Miner do systémů
STATISTICA Data Miner,
WebSTATISTICA a vlastních aplikací (pomocí SVB, např.: uživatelé mohou automaticky nebo ručně přistupovat k souborům uloženým v datových skladech použitím technologie IDP a provádět aktualizace daných analýz a číselných souhrnů textových informací; tento postup může být uskutečněn užitím systému
WebSTATISTICA. V tomto případě výsledky těchto analýz mohou být dostupné pro autorizované uživatele prostřednictvím internetového prohlížeče.
Minimální požadavky: Windows XP/Vista/7/8, procesor 1GHz, 1GB RAM, MS Internet Explorer min. verze 6