IT Systems 9/2024 AI a Business Intelligence CRM systémy 13. 10. 2024 16:55

Budoucnost hlasových asistentů?

Synergie, personalizace a analytika v přímém přenosu

Zhruba před dvěma roky vtrhly na trh LLM – velké jazykové modely, jako například OpenAI. A většina firem tak zkusila touto technologií nahradit tradiční konverzační stromy svých virtuálních asistentů. Proč je lepší usilovat spíše o synergii těchto dvou cest než o pouhé nahrazení jedné technologie tou druhou? A jak se vlastně dívat na budoucnost hlasových asistentů dnes – v druhé polovině roku 2024?

Vzít klasické skripty virtuálních asistentů postavené na stromové struktuře a nahradit je generativní umělou inteligencí? Kéž by to bylo tak jednoduché! Tento přechod má totiž své nevýhody – například náklady na provoz. Pokud provozujete GPT na vlastní infrastruktuře, potřebujete velmi výkonné servery. A když si tuto službu kupujete od poskytovatele v cloudu, stojí vás nemalé peníze. Navíc se může stát, že GPT bude reagovat nepřesně nebo pomalu. Proto je rozumnější vydat se cestou synergie a skloubit skriptovaný dialog s velkým jazykovým modelem. Každá tato technologie má totiž své výhody. A díky jejich spojení tak můžete těžit z obou dvou najednou.

Představte si, že se na virtuálního asistenta obrátí zákazník, kterému se podařilo si zablokovat kartu. V tomto případě je ideální použít tradiční konverzační strom pro určení požadavku. Abychom zkrátka zjistili, o jaký problém se jedná. Klasický skript se totiž hodí na jednodušší otázky či small talk. Je to zkrátka rychlejší i levnější. Naopak na složitější otázky dává smysl nasadit velké jazykové modely. Jsou totiž schopné lépe porozumět kontextu, reagovat na různé scénáře, nabídnout relevantnější odpověď a celkově vést přirozenější dialog.

Agent assist systémy jako předstupeň voicebotů

Velké jazykové modely vám ještě také pomůžou s další věcí – s pomocí lidským operátorům, takzvaným Agent Assistem. Jedná se o systém, který v reálném čase radí operátorovi, na co se má během hovoru se zákazníkem zaměřit a na co nemá zapomenout. S klasickými technologiemi je velice obtížné vytvořit produkt, který by dokázal ohlídat všechny potřebné body, ale přitom by poskytoval i relevantní rady. Díky generativní AI, která rozumí celému kontextu dialogu, je mnohem jednodušší takového asistenta vytvořit. Agent Assist tedy sám nemluví, ale naslouchá a poskytuje rady operátorovi v reálném čase. S tímto řešením se zároveň vyhnete problémům s „halucinacemi“, kdyby náhodou umělá inteligence začala generovat nesmyslné odpovědi. Agent Assist totiž funguje spíše jako nástroj, který pouze pomáhá operátorovi. A ten je stále tím filtrem, který kontroluje, co sám zákazníkovi řekne.

Řada firem se chce pustit do automatizace, ale voiceboti pro ně stále představují příliš velký kalibr. Zkrátka se do toho bojí jít naplno, což už je v dnešní době zbytečné. Agent Assist systémy jsou tak skvělým řešením pro firmy, které mají obavy z možných halucinací generativní AI a zároveň si uvědomují limity klasických stromových dialogů. Pokud se tedy bojíte jet na „autopilota“, tedy automatizovat celý proces od začátku do konce prostřednictvím voicebota či chatbota, zvolte raději cestu „kopilota“. Pomůže vám, ale poslední slovo budete mít vy.

Voiceboti míří k real-time analytice a větší personalizaci

Využívat voicebota jako kopilota láká v poslední době čím dál tím více firem. Kam ještě směřuje oblast hlasových technologií vedle kombinace konverzační a generativní AI? Pojďme se podívat na další trendy v oblasti voicebotů.

1. Analytika voicebotů v přímém přenosu
Budoucnost se bude rozhodně ubírat směrem od klasické call centrové analytiky, která se často označuje jako post-call analytics či offline analytics. Tradiční call centra dnes pracují tak, že nejprve přepíší hovory a následně je zpětně analyzují. Brzy bude probíhat analytika, přepisy a rady pro operátory v reálném čase. A vy můžete tak rovnou sledovat, jestli se uživatelé v dialogu neztrácejí a zda voicebot neříká něco, co by je zmátlo. Když takový hovor nastane, lze ho jednoduše přepojit na živého operátora, který navíc může dohlížet na více voicebotů současně. To se už dnes děje u chatbotů. Ale u voicebotů je tento postup teprve novinkou. Obrovskou výhodou je, že lze stejnou technologii využít i na hovory se skutečnými agenty.

2. Virtuální avataři zažívají návrat
Tím, jak se technologie posouvají, firmy začínají znovu zkoušet 2D a 3D avatary. Proč? Pokud máte virtuálního asistenta, který dobře konverzuje hlasem díky generativní AI, dává smysl mu dodat tvář. V minulosti avataři tak úspěšní nebyli, ale teď se k nim firmy znovu vracejí. Je to zkrátka další krok, jak zase posunout firemní komunikaci o kousek dál.

3. Personalizovaná komunikace pro lepší uživatelský zážitek
Už dnes existuje možnost přizpůsobit rychlost a styl řeči tomu, kdo právě voicebotovi volá. Pokud je to například starší člověk, tak se daná technologie automaticky přepne do módu, kdy mluví voicebot nahlas a pomaleji. S personalizací souvisí i využití dat o uživatelích. Pokud technologie ví, se kterým zákazníkem zrovna hovoří, dovede mu přizpůsobit obsah hovoru. Třeba když uživatel bude potřebovat vyřešit svůj tarif, voicebot bude hned vědět, o který se přesně jedná. Jeho číslo si totiž snadno dohledá v databázi, kde budou informace o tarifu uvedené.

4. Rozpoznávání emocí a naladění se „na stejnou vlnu“
Ač v dnešní době probíhá analýza emocí stále až po přepisu z řeči na text, OpenAI nedávno představilo demo nové technologie, díky které dovede voicebot pracovat s celou akustickou křivkou. Dokáže tedy měnit jak barvu, tak intonaci celého hlasu. I když je to zajímavý pokrok, stále se tato technologie příliš nerozšířila. Pro reálné vyhodnocování akustických signálů v reálném čase totiž potřebujete vysoký výkon, což samozřejmě není zadarmo. Proto se firmy zatím smířily s klasickou sentimentální analýzou textu, která je sice levnější, ale chybí v ní zásadní informace. Převodem řeči na text se totiž ztrácí akustické vlastnosti hlasu, jakými jsou například tón či intonace. Analýza emocí také nemusí být úplně nejpřesnější. Kvůli rozdílům v kvalitě signálu může být procentuální úspěšnost pouze 50–60 %. Rozpoznáváte sice emoce na základě tónu, barvy, frekvence a hlasitosti, ale pokud se ve více než polovině případů spletete, je výsledek podobný náhodnému odhadu. Nabízeným řešením je tedy kombinace analýzy sentimentu a emocí, které pomyslnou laťku úspěšnosti společně posouvají výše.

5. Voicebot, který ví o firmě první poslední
RAG neboli Retrieval-Augmented Generation je řešení, které lze aplikovat u hovorů i na chatu. Funguje tak, že vytvoříte asistenta, který má na pozadí znalostní bázi dané firmy. Když se uživatel zeptá, systém hezky zformuluje odpověď a zároveň drží kontext. Díky RAG lze tak nahradit tradiční FAQ asistenty, které jsou postaveny na statických skriptech. S RAG a technologiemi jako vektorové databáze a sémantické vyhledávání je totiž možné vyhledávat v rozsáhlých databázích dokumentů – a to i ve stovkách tisíc souborů – nebo dokonce scrapovat webové stránky.

Co se bude dít dál?

I přes všechny nové technologie v oblasti hlasových asistentů je stále třeba se vypořádat s několika výzvami. Třeba s minimalizací latence – reakce systému musí být co nejrychlejší, aby uživatel nemusel čekat na odpovědi od voicebota. Pokud systém nemá odpověď hned, měl by reagovat konverzačně, například „Rozumím, vydržte, na to se podívám do systému.“ Tím uživateli naznačí, že otázku zpracovává, a přitom na pozadí může procházet relevantní informace nebo dokumenty, jak je to běžné u RAG botů. Další výzvou je kvalita hlasu, která musí být opravdu perfektní a přirozená. Technologie by měla dokázat správně zachytit emoce a reagovat adekvátně, ať už jde o naštvaného, nebo spokojeného zákazníka. Klíčové je, aby voicebot hovořil plynule a uživatel neměl pocit, že se zasekl nebo neví, jak odpovědět. A to je teprve jen špička ledovce.

Ať už půjdou trendy jakýmkoliv směrem, jedno je jasné. Hlasoví asistenti rozhodně změní celkovou roli zákaznických služeb. Firmy by však měly myslet na to, že pokud se implementace umělé inteligence provede špatně, technologie rozhodně není samospásná. Když AI nasadíte bezhlavě a očekáváte, že vyřeší všechno sama, může paradoxně zákaznický zážitek ještě zhoršit. Firma pak může mít pocit, že jim technologie nepomohla. Když ale implementace umělé inteligence proběhne správně, budou spokojeni všichni. Firmy i zákazníci, kteří tak dostanou prvotřídní servis.

Martin Čermák
Autor článku je spoluzakladatel a CTO společnosti Vocalls.