Reconeixement i síntesi de la parla

Reconeixement i síntesi de la parla

Els avenços tecnològics en intel·ligència artificial i llenguatge estan transformant molt de pressa l’àmbit de la llengua. Ben aviat farem les nostres cerques des de l’ordinador o el mòbil amb la veu, no amb el teclat. Ens hem de començar a preparar per a aquest nou repte!

Què és el reconeixement i la síntesi de la parla?

El procesament del llenguatge natural i el reconeixement de la parla són dues tecnologies clau per descodificar la parla humana natural. Un exemple, que ja fa temps que coneixem, el trobem quan truquem a una empresa i un contestador automàtic ens demana què volem, una tecnologia processa el que diem fins a entendre-ho per derivar la nostra trucada segons el tema o fins i tot donar-nos una resposta. Aquesta resposta pot ser pregravada o es pot produir artificialment intentant reproduir la parla humana, això és la síntesi de la parla, i és el que fan els assistents de veu.

Per aconseguir millorar aquestes eines calen bases de dades ingents. En el cas de l’anglès, no cal dir-ho, això és fàcil d’aconseguir, en el de llengües més minoritàries com el català, aquesta mancança fa que els avenços no puguin anar al mateix ritme que les llengües més parlades.

Els grans reptes del reconeixement de veu són les diferents diccions, entonacions i varietats dialectals. El repte de la síntesi de la parla és que soni natural i sigui intel·ligible.

Quins usos tenen les tecnologies de la parla?

  • Assistents de veu: Siri, Alexa, Cortana
  • Software per a llegir text de la pantalla per a persones cegues: Jaws, Window Eyes
  • Per llegir premsa escrita i convertir text escrit en àudio: PressReader, Speechkit
  • Sistemes de navegació GPS
  • Assistents de pàgines web per a accessibilitat
  • Interfícies de programació d’aplicacions: Microsoft Azure, Google Cloud Platform, IMB Watson, Acapellabox (amb veus descarregables)

On ho podem trobar?

Hi ha programari de síntesi de parla obert i lliure, la majoria tenen veus masculines i  femenines  predeterminades però en alguns casos també podem demanar una veu personalitzada. Podeu descarregar-vos-ho i fer proves.

Catotron:

https://collectivat.cat/blog/2019-12-05-sintesi-de-la-parla-xxnn/

Festival:

www.cstr.ed.ac.uk/projects/festival/

Nuance:

www.nuance.com

Festcat:

http://festcat.talp.cat/

Si bé la tecnologia i la intel·ligència artificial en el processament del llenguatge, el reconeixement i la síntesi de la parla avancen moltíssim i ben aviat seran molt més presents que ara en la nostra vida quotidiana, encara no podem refiar-nos-en per a temes delicats com ara els jurídics o relacionats amb la salut, en què una mala interpretació pot tenir conseqüències nefastes.

Si us cal ampliació d’informació sobre l’adaptació d’aquestes tecnologies a les vostres necessitats, no dubteu a posar-vos en contacte amb nosaltres.

Share