fb
IT Systems 7-8/2025 CRM systémy AI a Business Intelligence Včera 10:00

Churn management: Jak efektivně zvládnout prevenci odchodu zákazníků

Schopnost udržet si zákazníka je v konkurenčním prostředí klíčová pro každou společnost. Marketing vytvořil širokou škálu metod, jak zákazníka udržet, ale většina z nich je spojena s náklady, např. poskytnutí retenční slevy, nebo se metoda nedá aplikovat na celý zákaznický kmen. Vzniká tak potřeba umět retenční akci zacílit na konkrétní zákazníky ohrožené odchodem. Zde se otevírá prostor pro aplikaci algoritmů používaných v data science nebo ve statistice. Konkrétně je úkolem vytvořit model, který každému zákazníku přiřadí skóre vyjadřující riziko odchodu.

Modely pracují s historickými daty, tedy s již proběhlými odchody a s údaji, co těmto odchodům předcházelo. Pro odhad modelu je ale nutné mít údaje o zákaznících, kteří neodešli. Model v datech najde vzory chování zákazníků a pokud se do odhadnutého modelu dosadí aktuální hodnoty zákaznických dat, vrátí předpověď odchodu.

Odchod

Na začátku celé cesty k modelu je potřeba zodpovědět klíčovou otázku. Co je to odchod zákazníka, jaká událost se má modelovat? Otázka je relativně snadná, pokud je zákaznický vztah zaštítěn smlouvou, např. u mobilního operátora nebo poskytovatele energií. Složitější situace je, když zákazník provádí ad hoc nákupy, jako je v libovolném e-shopu.
V prvním případě se zdá samozřejmé, že odchod zákazníka je ukončení smlouvy, nicméně to může být složitější. Mezi přáním zákazníka smlouvu ukončit a skutečným ukončením obvykle probíhá snaha organizace rozhodnutí zvrátit. V té době už je jasné, že zákazník chce odejít a výsledek závisí na mnoha okolnostech provázející retenční akci. Pro prevenci odchodu zákazníka je užitečnější předpovídat samotné rozhodnutí odejít. Předpovídanou událostí by tedy mělo být vyjádření zákazníka odejít. Jak vážné to vyjádření musí být, je další otázkou. Někdy se bude modelovat oficiální podání výpovědi, jindy jen nezávazné vyjádření přání odejít pronesené na infolince společnosti.
Ve druhém případě, bez pevné smlouvy, je situace složitější. Organizace si musí určit období, bez dalšího nákupu, po němž se zákazník považuje za ztraceného. Zpětně lze tak zjistit, kdo další nákup neprovedl a kdo ano, a to pak použít jako odhadovanou událost v modelu.

Případy

Současně s definicí modelované události je potřeba určit, co bude jeden případ pro model. Logicky se nabízí, aby to byl jednotlivý zákazník, ale opět je to v praxi trochu složitější. Nutným předpokladem aplikace modelu je identifikace zákazníka, to může být problém při absenci smlouvy. Při nákupu v e-shopu lze využít zákaznické registrace, při nákupu v kamenném obchodě členství v zákaznickém klubu. Pokud nic z toho není, je možné se ještě pokusit pracovat s IP adresou, bez identifikace ale není možné model používat. Ve všech těchto případech není zaručeno, že registraci využívá jen jeden zákazník. Za jedním účtem může být celá rodina a může se tak modelovat skupina osob dohromady. Tento fakt lze pouze vzít na vědomí a počítat s menší přesností modelu.
V případě smluvního vztahu je sice zákazník identifikován, ale může mít uzavřeno více smluv. Typické je to zejména u poskytovatelů energií, kdy má zákazník registrováno více odběrných míst. V takové situaci je mnohdy snazší modelovat odchod na úrovni smlouvy než celého zákazníka. Jinak by se musely řešit situace, kdy zákazník vypoví jen jednu smlouvu apod. Modelovaná entita se bude dále nazývat případ.

Časová osa

Při tvorbě modelu, resp. dat nutných pro jeho odhad je zásadní správně definovat časové okamžiky z historie případu. Jednoduchá je práce s proměnnými, které jsou po celou dobu konstantní, např pohlaví, složitější je pracovat s údaji, které se mění, typicky míra využívání smlouvy (provolané minuty, spotřeba energie, počet nákupů zboží, …). U takových proměnných je potřeba zvolit okamžik, ke kterému se hodnota váže. Historické hodnoty k danému okamžiku nebo k daným okamžikům tvoří modelovací matici. Ta slouží k vytvoření modelu.
Základní princip je, aby byla modelovací matice co nejpodobnější situaci, ve které se bude model pro spočtení předpovědi používat. Je potřeba se vyhnout systematickému výběru historických okamžiků, např. by bylo chybné vždy brát historii k 1. výročí vzniku smlouvy nebo vždy jeden měsíc před odchodem zákazníka. Okamžik z historie smlouvy musí být zvolen náhodně. Nejprve se u každého případu určí časové okno, kdy k výběru může dojít. Okno typicky začíná v době, kdy má případ odžitu dostatečnou historii, např. 6 měsíců, a končí v době odchodu zákazníka nebo pevným datem v minulosti u neodešlých zákazníků. Protože je vývoj trhu v posledních letech napříč různými obory značně turbulentní, je vhodné se soustředit na případy aktivní v nedávné minulosti. Typicky je nevhodné používat data z období před epizodou vysoké inflace, a ještě méně před pandemií Covidu-19.
Jakmile je okno definováno, provede se v něm volba náhodného okamžiku – modelovacího okamžiku, k němu se pak konstruuje veškerá historie. Klíčové je také zjistit, zda po modelovacím okamžiku došlo k výpovědi. Výsledek je určen dobou, po kterou je provedení výpovědi sledováno, jde o horizont předpovědi. Je to zásadní parametr celého modelu, čím kratší je to doba, tím model dosahuje přesnějších předpovědí. Bohužel je ale tím méně času zákazníka přesvědčit, aby neodcházel. V praxi je potřeba zvolit vhodný kompromis, ten závisí na konkrétním charakteru produktu. U smluvních vztahů je vhodná doba předpovědi od 1 do 6 měsíců. Model pak bude počítat riziko, že v tomto období dá zákazník výpověď. Byl-li zvolen horizont 3. měsíce, sleduje se, zda výpověď nastala od modelovacího okamžiku do 3 měsíců. Pokud ano, jde o pozitivní případ v opačné situaci o negativní.
Uvedený postup replikuje v historických datech aktuální složení zákaznického portfolia za předpokladu, že v zákaznickém kmeni nedochází k výrazným změnám. Nevýhodou postupu je, že nezaručuje dostatečný počet pozitivních a negativních případů. Podle charakteru zvoleného algoritmu je potřeba mít v modelovací matici dostatečný počet případů obojího druhu, minimálně by to měly být větší stovky nebo tisíce případů. Podíl pozitivních a negativních případů může být menší i než třeba 1 %, důležitý je absolutní počet v každé kategorii. Pokud není počet případů dostatečný, je běžnou praxí vybrat od každého případu dva a více okamžiků. Jeden případ pak bude v modelovací matici vícekrát třeba i s různým výsledkem výpovědi. Opakovaný výběr není ze statistického hlediska zcela korektní a měl by vést k použití speciálních modelu, ale v praxi se tento fakt ignoruje a kontroluje se jen praktická užitečnost modelu. Na obrázku je ilustrována situace, kdy byly zvoleny dva náhodné okamžiky modelu pro daný případ a sleduje se výpověď do 3 měsíců, první okamžik je negativní a druhý pozitivní. Modrá šipka vyznačuje dostupnou historii.
 
Ilustrace volby okamžiků pro modelování.

Modelovací matice

Jakmile je zvolen modelovací okamžik, konstruuje se k němu veškerá historie případu. Dopředu nelze určit, jaké proměnné budou v modelu důležité, ale vhodné bývají informace o intenzitě využívání služby nebo o nákupech, fakturační údaje, informace o komunikaci se společností, o chování zákazníka na dalších smlouvách, pokud je má, o činnosti v zákaznických portálech apod. Z hrubých údajů je potřeba vytvořit smysluplné konstrukty. Například u poskytovatele energie se sleduje spotřeba za několik období v minulosti i její změny, z historie komunikace se zkonstruuje počet kontaktů za určité období podle směru a předmětu kontaktu. Jaké konkrétní proměnné se mají konstruovat, nelze obecně říci a záleží na konkrétní úloze. Při konstrukci proměnných je třeba uvažovat i o modelovacím algoritmu. Různé algoritmy jsou různě citlivé na extrémní hodnoty, korelované proměnné nebo chybějící hodnoty. Velmi citlivá je například logistická regrese případně i diskriminační analýza, naopak velmi robustní jsou rozhodovací stromy a XGBoost.

Model

Když je datová matice vytvořena, je na řadě odhad modelu. Na výběr je celá řada algoritmů, použít lze libovolný model, který odhaduje výskyt události (odchod), tedy binární proměnnou. Klasickou metodou je logistická regrese nebo diskriminační analýza. Obě metody jsou náročné na přípravu dat, ale logistická regrese dovoluje model interpretovat. Pokud je nutné rozumět vlivům na odchod, je logistická regrese prakticky jediným řešením. Z komplexních metod lze doporučit rozhodovací stromy, neuronové sítě nebo v poslední době oblíbený XGBoost, Nevýhoda komplexních algoritmů je až na vzácné výjimky neprůhlednost výsledného modelu.

Evaluace

Odhadem modelu práce zdaleka nekončí, následovat musí ověření funkčnosti modelu. Standardně se model ověřuje na validační množině, to je část modelovací matice, která se nepoužije pro odhad modelu, ale právě pro ověření jeho funkčnosti. Model se aplikuje na případy z validační množiny a srovná se u nich skutečný výsledek s předpovědí. Oblíbenou metrikou je Giniho koeficient a ROC křivka. Složitější algoritmy mají tendenci velmi dobře modelovat data, na kterých se odhadují, ale mnohem hůře odhadují nezávislá validační data. Pokud se to stane, dá se to řešit úpravou parametrů modelu, nebo se tento nedostatek ignoruje, pokud jsou výsledky na validační množině stále uspokojivé.
 
ROC křivka pro predikci podání výpovědi poskytovateli energií během 3 měsíců. Křivka ukazuje, jak časté je chybné poskytnutí retenční nabídky neodcházejícím zákazníkům. Např. pokud je snaha nabídku poskytnout 80 % zákazníků, kteří skutečně podají výpověď, model chybně identifikuje pro zaslání retenční nabídky i 42 % zákazníků, kteří nechtějí odejít. Čím je křivka dále od diagonály, tím je model lepší než náhodné rozesílání nabídky.
 
Uvedený postup validace bohužel nezaručuje, že model bude dávat v praxi dobré výsledky. Situace na trhu se může rychle měnit a model, který fungoval v minulosti již na nových datech fungovat nemusí. Validace proto musí probíhat kontinuálně, jak je model používán. Vhodné je pravidelně, nejlépe měsíčně, spočítat riziko odchodu pro aktuální zákaznický kmen a pak porovnat výsledek s realitou. Pokud model počítá pravděpodobnost odchodu do 3 měsíců, je na vyhodnocení nutné 3 měsíce počkat a pak předpověď srovnat se skutečností. S tříměsíčním zpožděním lze průběžně sledovat kvalitu modelu.
Když model začne ztrácet predikční schopnost, je čas vytvořit novou modelovací matici s aktuálními případy a model znovu odhadnout. Používání modelu je tedy spojeno s jeho neustálou kontrolou a aktualizací. Funkční model se ale vyplatí, protože dokáže předvídat odchody zákazníků a tím pomáhá společnosti zajistit dostatečný počet zákazníků a její další existenci.
 
Ing. Ondřej Brom
Autor článku má bohaté praktické zkušenosti s projekty analýzy odchodovosti zákazníků. Působí již 20 let ve společnosti ACREA CR (dříve SPSS CR) jako analytik, lektor a konzultant. Ve své činnosti se zaměřuje na realizaci dataminingových projektů a výuce data miningu. Věnuje se ale také řešení statistických úloh a výuce statistických metod, zejména lineární regrese a časových řad.

Kalendář akcí
Konference - Semináře - Školení
Časopis IT Systems/Speciál
Aktuální číslo časopisu IT Systems Aktuální číslo časopisu příloha #1
Archív časopisu IT Systems
IT Systems 6 IT Systems 5 IT Systems 4 IT Systems 3
Archív časopisu IT Systems Special
Aktuální číslo časopisu příloha #1 Aktuální číslo časopisu příloha #1 Aktuální číslo časopisu příloha #1 Aktuální číslo časopisu příloha #1