Evoluce datové práce
Vývoj a trendy v práci s daty
Za posledních 15 let prošla práce s daty revolucí. Od deterministického zpracování a strukturovaných informací po neuronové sítě a real-time analýzu. Navíc dat neustále přibývá a firmy musí řešit zásadní otázku: Co s nimi?
Přestože se může zdát, že získávání a analýza dat jsou fenomény poslední dekády, realita je jiná. Už před 15 lety existovala podrobná data a rozvinuté analytické i statistické metody jejich zpracování. V oblasti telekomunikací jsme využívali mimo jiné technická data, abychom mohli segmentovat zákazníky podle celé řady kritérií a předpovídat jejich chování. Zabývali jsme se i propenzitním modelováním, tedy hledáním souvislostí v historických datech a jejich využitím pro identifikaci reakcí na konkrétní nabídky. Dokonce dnes tak diskutované neuronové sítě nejsou žádnou novinkou a uměli jsme s nimi pracovat už tehdy, i když ne v tak širokém rozsahu jako dnes.
Když hardware nedokáže držet krok
Na co jsme ale naráželi, byl problém s výkonem, s kapacitou hardwaru. To je ten největší rozdíl oproti minulosti. Dnes mohou být modely zpracování dat i neuronové sítě daleko složitější, i vrstvené, a tím pádem i možnosti práce s daty jsou úplně někde jinde. Zajímavým paradoxem je, že ačkoli technologické možnosti rostou, kvalita dat se může snižovat kvůli jejich decentralizaci a nekonzistenci. V minulosti jsme měli větší strukturalizaci. Data byla centralizovaná do warehousů, kde se standardizovala, často se dbalo i na nějaký meta slovník, který řešil jejich strukturu, význam i další atributy. Od této organizace jsme se posunuli k decentralizaci a chaosu, do kterého vstupují rozličné technologie i systémy, které nejsou koherentní a data z nich mají různou granularitu. Stručně řečeno, s širšími technologickými možnostmi roste i objem dat a náročnost jejich zpracování. Na druhou stranu obsahují mnohem větší hloubku informací, byla by tedy škoda nepokusit se datovou džungli zkrotit, má nám totiž mnohé co nabídnout.
Výzvou dneška je propojování rozmanitých datových světů
Klíčem k úspěchu v dnešní době je schopnost integrovat a analyzovat data z různých zdrojů. Překvapivě hodně firem stále používá legacy systémy, vedle toho vznikají ale i real time data, informace jsou uloženy na různých místech, v cloudech a v různých typech zařízení. A pokud je chceme analyzovat, musíme všechny relevantní zdroje nějakým způsobem propojit, výpočetní entita potřebuje data zkonzumovat na jednom místě. Existují samozřejmě nástroje, které propojování nějakým způsobem usnadňují, jako je Hadoop, Kafka i další systémy, ty ale nevyřeší problém datové kvality. Často se setkávám s tím, že firmy ve snaze vytěžit z nesourodých dat nějakou přidanou hodnotu lepí dohromady různé systémy. Jenže pokud nemají čistá data na jednom místě, musí složitě vytvářet výjimky a transformace před samotným výpočtem, což samozřejmě zvyšuje cenu a spotřebu výkonu na výslednou analýzu. Řešením tedy není akumulace nástrojů, ale strategický přístup ke zpracování dat, který umožní efektivně využívat informace, aniž by bylo potřeba vynakládat obrovské finanční a časové zdroje.
Real-time analýza dat formou služby
Pořizování stále nových nástrojů na propojení cloudů, systémů a technologií je finančně náročné, a ne všechny firmy si to mohou dovolit. Proto se jako efektivní cesta ukazuje forma služby. Pokud má zákazník nějaký jasně daný use case a ví, kde potřebná data vzít, správný poskytovatel mu může pomoci zpracovávat data v reálném čase a korelovat je s dalšími datovými toky. To umožňuje nejen řešit problémy s datovou kvalitou, ale i vytěžovat hodnotu dat přímo během jejich toku, ještě, než dotečou do nějakého finálního úložiště. Tedy nemusím bezmyšlenkovitě přesouvat data „se vší špínou“ do jiné vrstvy, ale už po cestě mohu vytěžit jejich hodnotu a zároveň je standardizovat, upravit nebo doplnit chybějící informaci. A samozřejmě jsou oblasti, kde vyhodnocení informace už v rámci toku dat je naprostou nezbytností. Typickým příkladem je detekce platebních podvodů. Díky real-time analýze je možné ihned při vzniku dat aplikovat nějakou logiku a podvod zachytit okamžitě. V době instantních plateb není možné čekat, než se data dostanou někam do vrstvy warehouse.
Forma služby má oproti pořízení produktu jasné výhody – odpadají náklady na pořízení HW, SW a licencí. Zákazník platí za konkrétní využitý use case po předem stanovenou dobu. Snadno si tak dokáže spočítat, jestli pro něj dává konkrétní analýza dat po finanční stránce smysl, a dokonale optimalizovat náklady.
Závěrem zbývá říci, že výzvou dnešní doby je nejen data získávat, ale přistupovat k nim chytře a s rozvahou. Vyzbrojeni správnými nástroji a znalostmi, můžeme překonat náročnost datového světa a otevřít dveře k novým možnostem a inovacím.
Jiří Mojžíš Autor je CTO společnosti Analytics Data Factory. |