Viktor Hlača 29/07/2019

Prepoznavanje govora – za početak književnog

Tehnologija
Tehnologija
3 min. čitanja 3

Prepoznavanje govora radi na razvoju tehnologija koje omogućuju prepoznavanje i prijevod izgovorenih riječi u računalni tekst odnosno tekst razumljiv računalu. Jedan od sinonima je i automatsko prepoznavanje govora (Automatic Speech Recognition – ASR)

Neke metode razvoja prepoznavanja govora uključuju i trening tijekom kojeg čovjek čita tekst ili izolirani rječnik i sustav ga uči („trenira“). Takvi sustavi koji trebaju trening zovu se „ovisni o govorniku“ sustavi i takvi sustavi nemaju pravu primjenu u kontaktim centrima. Prednost sustava koji su ovisni o govorniku je preciznost što se postiže analiziranjem govornikovog glasa te finim podešavanjem prepoznavanja govora. Sustavi koji ne trebaju trening zovu se „neovisni o govorniku“ sustavi i njih sve više srećemo u kontaktnim centrima.

Iz perspektive tehnologije, prepoznavanje govora ima dugu povijest. Posljednji val inovacija zasnovan je na korištenju deep learning i big data tehnologija. Razvoj je vidljiv po velikom broju proizvođača rješenja zasnivanih na tim tehnologijama. Alexa i Siri samo su neki od primjera.

Nakon više od dvadeset godina razvoja, tehnologija prepoznavanja govora spremna je za implementaciju u kontaktnim centrima bez obzira na to radi li se o organizacijama koje već imaju razvijena IVR rješenja zasnovana na DTMF-u ili se radi o organizacijama koje tek razmišljaju o implementaciji IVR rješenja.

Tehnologija prepoznavanja govora spremna je za implementaciju u kontaktnim centrima.

Ono što je prednost korištenja tehnologije prepoznavanja govora je omogućavanje prirodne komunikacije sa samouslužnim sustavima te veća fleksibilnost u razvoju samouslužnih aplikacija.

Primjerice, razvojem aplikacije koja kombinira prepoznavanje izgovorenih riječi i glasa možemo u IVR aplikacijama prepoznati pozivatelja te izbjeću utipkavanje PIN-a. No kad razmišljamo o uvođenju samouslužnih aplikacija koje prepoznaju razgovor moramo voditi računa o nekim od mogućih situacija:

  • prepoznavanje govora je teško jer se pozivatelj nalazi u bučnom okruženju
  • pozivatelj ne želi koristiti prepoznavanje govora kad mora izgovoriti svoj PIN
  • želimo da pozivatelji koriste samouslužne aplikacije, no ne želimo da se korisnici osjećaju u klopci, odnosno želimo da osjećaju da u bilo kojem trenutku mogu zatražiti živog agenta

Zbog ove tri činjenice i kada implementiramo samouslužni servis s prepoznavanjem govora moramo osigurati mogućnost korištenja DTMF-a, ali i mogućnost izlaska iz samouslužnog servisa te kontakt sa živim agentom. Naravno da moramo korisnika upozoriti na posljedice njegove odluke odnosno pozivatelj mora znati što bi to značilo iz perspektive čekanja na agenta.

Ono što je zanimljivo kako sustav može reagirati na regionalizme ili psovke/poštapalice koje su uobičajene posebno kod ljutih korisnika. Što mislite o tome?