Bohatství, které zůstává ladem
Zkusili jste se někdy ponořit do hlubin datového skladu vaší společnosti? Možná jste tam krom nějakého toho kostlivce našli zlatou žílu. A pokud ne, je nejvyšší čas vyhrnout si rukávy a začít těžit data!
O tom, jak esenciálně důležité je hledat, těžit a sofistikovaně využívat informace, nás dennodenně přesvědčují internetoví giganti dneška – Amazon, Google, Facebook a další. Všechny tyto firmy dokáží zpracovat informace o svých klientech a přetavit je v zisk pro sebe a v kvalitnější služby pro své uživatele. Vždyť kdo z nás nikdy neklikl na další video, které by se vám mohlo líbit? A kdo z nás nikdy nepřihodil do košíku ještě jednu knihu, kterou lidé jako vy také koupili?
Obrovský potenciál mají především relační data. Všimněte si, že všechny zmíněné korporace těží právě z tohoto druh dat! Naštěstí nemusíte provozovat zrovna největší e-shop světa, abyste je mohli využít. Relační data ukládá většina našich klientů (banky, telko, státní instituce, …). Jde jen o to vytěžit z nich maximum.
Transakční obraz klienta
Pojďme se v krátkosti podívat na příklad využití Installment Detectoru, který jsme vyvinuli pro jednu českou banku. Jeho cíl byl jednoduchý – mám klienta, kterému vedeme běžný bankovní účet, a chtěli bychom zjistit, zda (a které!!) jeho transakce jsou splátkami. Jistě si sami dokážete představit, co by to mohlo přinést! Jen namátkou:
- Z výše splátek a jejich (ne)pravidelnosti si dokážu udělat lepší představu o rizikovosti klienta.
- Mohu mu připravit nabídku na míru a nabídnout mu lepší podmínky. Spokojený pak bude váš zákazník i váš management.
Abychom zjistili, které transakce jsou splátkami, naštěstí nemusíme své klienty obvolávat. Stačí se pečlivě podívat do dat, která už stejně mám v datových skladech uložená.
Jmenuji se Holmes. Sherlock Holmes.
Jak takové hledání pokladů v datech probíhá? Spíš než data mining, jak se této činnosti zpravidla říká, mi celý proces připomíná důkladnou detektivní práci. Nevěříte? Sledujte se mnou:
Na začátku detektiv pečlivě zkoumá místo činu, diskutuje se svědky a vytváří si několik vyšetřovacích hypotéz. Podobně musí data scientist pečlivě studovat celou problematiku, tedy svět půjček a splátkových společností, typické chování klientů v jednotlivých segmentech, anomálie v transakčních vzorech atd.. Velmi přínosná je diskuse s doménovými odborníky našeho klienta - to oni jsou těmi svědky, kteří znají data i proces jejich vzniku.
S každou stopou, kterou detektiv najde, upravuje svoje přesvědčení o tom, co se na místě činu skutečně stalo. Pokud se kupříkladu v nedalekém zahradním domku najdou zakrvácené vidle, podezření na zahradníka okamžitě vzroste. Bohužel ne vždy jsou stopy takto jasné – někdy je třeba rozplétat předivo událostí s Holmesovskou pečlivostí a smyslem pro detail.
V našem případě jsme naučili digitálního detektiva všímat si nejen očividných stop (např. na známý účet splátkové společnosti jde platba s poznámkou „splátka televize“). Aby si obhájil své místo na slunci, musel si všímat vzorů v platbách (od frekvence, proměnnosti výše, stálosti a penza používaných symbolů, …), charakteristik klientů, časových souvislostí, transakčních poznámek, … Takže na konci procesu mohl rázně přednést: data hovoří jasně, můj milý Watsone!
Se zkušeností roste síla
Klasifikační algoritmy, mezi které detekce splátkových transakcí spadá, dělíme na dvě třídy - tzv. unsupervised learning a supervised learning algoritmy. První jmenovaná připomíná bystré oko detektiva, které si všimne, že tady něco nehraje, že něco je jinak, než by mělo být… Ano, to může být někdy ošemetné – jak by se vám třeba líbilo, kdyby vás zavřeli, protože se chováte neobvykle dobře?!
Druhá třída, tedy supervised learning algoritmy, připomíná výcvik detektiva – na akademii ho seznámíme s velkým množstvím již vyřešených případů a necháme ho, aby konal detektivní práci sám. Bohužel ani tento přístup není samospasný – svět se mění a zločinci přicházejí s novými a novými způsoby, jak přelstít ruku zákona. Tak nějak tušíme, že schopný detektiv používá oba přístupy.
Nejinak tomu je i v živé světě splátek. Úvěrové společnosti vznikají a zanikají, zvyklosti klientů se mění, … Pokud bychom chtěli například výčet bankovních účtů úvěrových společností, velmi rychle nám zastará. A P2P půjčky či půjčky mezi přáteli by byly nepostižitelné…
V rámci Installment detectoru jsme proto nechali promluvit samotné klienty a implementovali jsme meta-model reflektující tuto dynamiku. A to není jediný případ, kdy náš digitální detektiv může zužitkovat znalosti. Bayesovské sítě, jenž dřímají v jeho nitru, k iterativnímu zlepšování přímo vybízí.
Od splátek spotřebitelských úvěrů je jen krůček k hypotékám a leasingům. A další k jiným typům transakcí –stačí detektiva naučit všímat si jiných stop.
Dominik Matula Autor článku je Senior Data Scientist ve společnosti Profinit. |