Viktor Hlača 20/09/2018

Sinteza govora ili kad računalo govori što želi(mo)

Tehnologija
Tehnologija
0

Sinteza govora je generiranje ljudskog govora korištenjem računala. Jedna od primjena sinteze govora je takozvani text-to-speech sustav (TTS) odnosno sustav pretvaranja teksta u govor.

TTS osim funkcije za sintezu govora sadrži i funkciju u kojoj zapisani tekst razbija i priprema za očitanje ovisno o načinu kako se govor generira. TTS sustavi nisu novost. Povijesno gledano prvi sustavi su se pojavili šezdesetih godina dvadesetog stoljeća, no osnove za razvoj se uspostavljaju još od osamnaestog stoljeća. Od devedesetih godina prošlog stoljeća TTS se već integriraju u mnoge operativne sustave radi olakšavanja korištenja osobama sa teškoćama. Zbog složenosti razvoja „novog jezika“ razvijani su samo za „velike“ jezike što se u zadnje vrijeme mijenja.

U kontaktnom centru se TTS koristi za pružanja informacija koje se često mijenjaju pa je nepraktično snimati statičke objave kod svake promjene ili kad su informacije koje pružamo korisniku toliko raznolike što otežava planiranje potrebnih objava. Osim toga, tehnologije sinteze govora drastično pojednostavljuju razvoj, dodavanje i modifikaciju funkcionalnosti na IVR sustavima zbog toga što se više ne mora upravljati statičkim objavama. Također IVR aplikacije koje koriste TTS djeluju prirodnije i tečnije te zbog toga poboljšavaju korisničko iskustvo. Osim u kontaktnim centrima TTS se koristi i za mobilne i web aplikacije te za olakšavanje života slijepim osobama i osobama koje čuju, ali ne mogu govoriti.

Zahvaljujući razvoju računala i povećanju njihove procesne snage te razvojem strojnog učenja, povećava se broj jezika za koje su razvijeni sinteza govora i TTS pa tako danas više proizvođača nudi TTS za hrvatski jezik.

Da bi olakšali razvoj pojednostavljenog sustava za pretvaranje digitalnih informacija u govor, neki su proizvođači razvijali osnovni govor. Osnovni govor predstavlja domensku sintezu govora odnosno sintezu govora specijaliziranu za određenu primjenu. Osnovni govor podržava generiranje govora za jednostavnije i predvidljive informacije kao što su brojevi, iznosi, datumi, vrijeme i slično. Osnovni govor se sastoji od dvije komponente:

  • set jednostavnih objava koji između ostalog uključuje svaku znamenku pročitanu na početku i na kraju broja, kao redni broj, u muškom i ženskom rodu
  • logike koja razbija informaciju na komponente koje se povezuju sa jednostavnim objavama. Na primjer logika razbija datum 18. 8. 2018., na redni broj 18., naziv mjeseca „kolovoz“, broj dva u ženskom rodu, broj 1000 u množini te redni broj 18. u ženskom rodu.

Sinteza govora je posebno moćna u kombinaciji sa prepoznavanjem govora gdje možemo pozivateljima omogućiti da komuniciraju sa samouslužnim servisom kroz prirodni govor. Takvo rješenje će povećati sklonosti pozivatelja korištenju samouslužnih servisa zbog boljeg korisničkog iskustva, a povećanje korištenja samouslužnih servisa povećava učinkovitost kontaktnog centra.