IT Systems 9/2016 AI a Business Intelligence 20. 10. 2016 7:02

Textová analytika pomáhá rozkrýt velká data

SAS Nejen velké mezinárodní společnosti, ale také menší lokální firmy si dnes uvědomují, že potřebují širší pohled na své aktivity. Zatímco analýza strukturovaných dat (prodejní čísla, výsledky apod.) je vcelku „jednoduchá“ pro zpracování, naslouchání potřebám a přáním zákazníků je naopak daleko náročnější. Výhodou při analýze zpětné vazby je zejména fakt, že textová data jsou volně dostupná na webových stránkách, diskusních fórech, sociálních sítích či ve firemních systémech v rámci přímé komunikace se zákazníky. Na druhou stranu nevýhodou je značný objem těchto nestrukturovaných dat a potřeba jejich transformace do podoby vhodné pro praktické zpracování a následné využití. Tyto nevýhody lze dnes vyřešit za pomoci technologií, které se označují jako textová analytika.

Praktické možnosti obchodního využití textové analytiky jsou značné. Jako příklad lze uvést použití při řízení zákaznické zkušenosti, monitoringu produktů (značky), v rámci business intelligence a v mnoha dalších oblastech. Tyto oblasti spojuje právě značný počet objemných textů, které není člověk v rozumném čase schopen přečíst, či dokonce zpracovat. Manuální vyhodnocení je navíc subjektivní, časově náročné a v případě použití analýzy menšího vzorku dat může vést k přehlédnutí hodnotných informací a souvislostí. Využitím vhodné technologie lze lidské dovednosti jako čtení, třídění a kvantifikaci nestrukturovaných textových dat plně automatizovat a využít například pro zhodnocení zpětné vazby vašich zákazníků. Většina předních dodavatelů prediktivních analytických programů proto spoléhá na analýzu textu a rozšiřuje v tomto smyslu možnosti jejich řešení.

Prediktivní analytika je založena na analýze současných a historických dat pro předpověď budoucího vývoje. To se v současnosti provádí na základě statistických metod a modelovacích technik při využití strukturovaných dat. Taková data jsou převážně v číselné podobě. Nyní, kdy máme možnost automaticky převést české texty do strukturované podoby, můžeme využít nové informace, které nemají původně číselnou reprezentaci, v kombinaci s tradičními strukturovanými daty. To samozřejmě zvyšuje množství vstupů do prediktivního analytického systému a díky přidání nových datových zdrojů (průzkumy, komentáře na sociálních sítích apod.) lze výrazně zvýšit úspěšnost předpovědí budoucích požadavků a potřeb vašich zákazníků.

SAS Uvedeme si zjednodušený modelový příklad, jak může síla nestrukturovaných dat vhodně doplnit prediktivní analytiku. Oddělení CRM v telekomunikační společnosti využívá prediktivního modelu pro odhad blahobytu jejich zákazníků. Nyní máme navíc možnost využít služeb textové analytiky, třeba nad daty ze sociálních médií, a kombinovat takové výstupy s již vytvořeným modelem. Zákazník, s aktuálně nízkým skóre, které udává nízké množství jeho kapitálu, přišel o práci. Jak sám popisuje, nemůže si dovolit nic nakupovat a každá nabídka nového telefonu mu připadá velmi frustrující. Když se podíváme na stejného zákazníka o tři měsíce později, vidíme jeho skóre dosahovat výrazně vyšších hodnot. Na svém profilu totiž vesele prezentuje úspěchy dosažené v nové práci, které jsou spojené s finanční prémií. Nezapomene se zmínit o nákupu nové televize, která zvládá i rozlišení 4K. Právě takové informace poskytují důležité podrobnosti a jako vstupy zvyšují efektivitu prediktivních modelů. V uvedeném konkrétním případě by původní model založený pouze na telefonním chování nedokázal flexibilně reagovat a v krátkém čase skóre navýšit. Navíc nestrukturovaná data vysvětlují marketingovým manažerům důvody vedoucí ke změně skóre zákazníka a dobrým nápadem je mu v této chvíli nabídnout nový telefon, který umožňuje natáčení 4K videa, aby využil schopnosti své nové televize. Jednoduše řečeno je textová analytika, nebo chcete-li metody dolování dat z textu, disciplína, která se zabývá odhalováním užitečných, ale mnohdy skrytých informací.

Na co se musíte u dolování z textu připravit a jak to vlastně funguje? Prvním krokem je sběr potřebných textových dat, která mohou pocházet z interních, či externích zdrojů. Ideálně by neměl být žádný typ zdroje pro analytický program překážkou. Přepis mluveného slova do textu je dnes dostupný v mnoha řešeních a je výborně využitelný pro analýzu zvukových souborů z call center, kdy lze detekovat sentiment v hlasu zákazníků a porozumět kontextu. Jestli je sentiment pozitivní, nebo negativní, je vždy dáno specifickou situací či produktem. Slovo RYCHLE může být označeno za pozitivní v kontextu řešení problému, nicméně negativní v komentáři k překvapivě rychlému vyčerpání mobilního datového tarifu. Problém může mnohdy způsobovat sarkasmus, který však může být taktéž rozpoznán. Nicméně zde je nutné najít vhodnou míru přesnosti predikce a námahu, která je vyžadována pro jeho identifikaci. Doporučuji zaměřit úsilí na nejčastější příklady pozitivního, či negativního komentáře. Pokud nemáte k dispozici přepis textu z call centra, můžete jako zdroj využít webové chatovací rozhraní nebo zápisky z prodejny a naučit vaše zaměstnance preference zákazníků a snížit dobu potřebnou k řešení obchodní situace/hovoru.

Když máme data k dispozici, pak stejně tak, jako v případě strukturovaných dat, musíme provést potřebné úpravy. Tím se rozumí sloučení textových polí, výběr vhodné znakové sady, odstranění HTML prvků a speciálních znaků. Následuje krok získávání slov, jejich čištění, identifikace vět a stanovení větných členů. Probíhá stematizace, kdy algoritmus hledá kmen slova (muž, muž-e, muž-i) a odstraňuje možné koncovky nebo předpony. Díky tomu lze řadit slova se společným kmenem do jedné skupiny. Podstatná funkčnost je identifikace hledaných entit, jako jsou různé názvy, data, autoři, jména, pohlaví, věk, kategorie a podobně. Analýza pracuje i s automatickou detekcí pravopisných chyb. Korpus neboli soubor počítačově uložených textů obsahuje zpravidla mnoho termů, které nejsou pro vlastní analýzu podstatné a je nutné termy vyloučit. Tento krok je mnohdy nejvíce časově náročný a vyžaduje i určitou expertní znalost analyzované oblasti. Pro vyloučení se využívá technik založených na vyhledávání podle klíčových slov, kdy vybrané termy nejsou dále k analýze připuštěny. Nejdůležitější však zůstává vlastní převod textu do číselné podoby, kdy se používají různé kombinace technik a metod založených na lineární algebře. Jakmile jsou data připravena ve strukturované formě, aplikujeme již tradiční algoritmy, jako je shluková analýza, klasifikace, asociační analýza a podobně. Nesmíme zapomínat, že textová analýza je iterativní proces, který vyžaduje hledání vhodné kombinace metod, nastavení, termů a pravidel pro vyřešení daného problému s nejlepšími možnými výsledky.

Shrnutí

Textová analytika je technologie, která je rozhodně na vzestupu. Ani v rámci českého prostředí již nejsme na počátku a je patrné, že mnoho technik řešících různé problémy bylo již testováno a jejich přínos prokázán. Na trhu existuje celá řada nástrojů pro prediktivní analýzu a mnohdy co nástroj, to unikátní přístup. Některé elementární techniky textové analýzy, jako identifikace entit nebo kategorizace, lze označit za společné pro mnoho nástrojů. Odlišení je patrné v podpoře všech kroků analýzy, od datové přípravy, přes výběr vhodných technik, grafické zpracování výstupů a vyvození závěrů, až po vlastní nasazení prediktivního modelu do reálného provozu. Také rychlost a schopnost zpracování je dnes rozhodující, stejně jako jednoduchost při ovládání a podpora českého jazyka. Plně automatické techniky dolování z textových dat se stále vyvíjí a bude ještě chvilku trvat, než se vyrovnají schopnosti lidí porozumět textu, a to i bez expertní znalosti dané oblasti.

Jan Černý
Autor článku pracuje ve společnosti SAS jako konzultant. Jan má pracovní zkušenosti v oboru telekomunikací, kde se nejprve věnoval problematice řízení vztahu se zákazníkem a řízení relevantní komunikace cílenou na individuální preference zákazníka. Poté získal zkušenosti s vývojem nových produktů a služeb v oblasti datové monetizace, která je založena na analýze dat velkého objemu, technik prediktivního modelování, strojového učení a automatického rozpoznávání.