Reconocimiento y síntesis del habla

Reconocimiento y síntesis del habla

Los avances tecnológicos en inteligencia artificial y lenguaje están transformando muy rápidamente el ámbito de la lengua. Pronto haremos nuestras búsquedas desde el ordenador o el móvil con la voz, no con el teclado. ¡Tenemos que empezar a prepararnos para este nuevo reto!

¿Qué es el reconocimiento y la síntesis del habla?

El procesamiento del lenguaje natural y el reconocimiento del habla son dos tecnologías clave para descodificar el habla humana natural. Un ejemplo, que ya hace tiempo que conocemos, lo encontramos cuando llamamos a una empresa y un contestador automático nos pide qué queremos, una tecnología procesa nuestras palabras hasta entenderlas para derivar nuestra llamada según el tema o incluso darnos una respuesta. Esta respuesta puede ser pregrabada o se puede producir artificialmente intentando reproducir el habla humana, esto es la síntesis del habla, y es lo que hacen los asistentes de voz.

Para conseguir mejorar estas herramientas se necesitan bases de datos ingentes. En el caso del inglés, no hace falta decirlo, esta es una tarea fácil, en el de lenguas más minoritarias como el catalán, esta carencia impide que los avances puedan ir al mismo ritmo que las lenguas más habladas.

Los grandes retos del reconocimiento de voz son las diferentes dicciones, entonaciones y variedades dialectales. El reto de la síntesis del habla es que suene natural y sea inteligible.

¿Qué usos tienen las tecnologías del habla?

– Asistentes de voz: Siri, Alexa, Cortana

– Software para leer texto de la pantalla para personas ciegas: Jaws, Window Eyes

– Para leer prensa escrita y convertir texto escrito en audio: PressReader, Speechkit

– Sistemas de navegación GPS

– Asistentes de páginas web para accesibilidad

– Interfaces de programación de aplicaciones: Microsoft Azure, Google Cloud Platform, IMB Watson, Acapellabox (con voces descargables)

¿Dónde lo podemos encontrar?

Hay software de síntesis del habla abierto y libre, la mayoría tiene  voces masculinas y femeninas predeterminadas pero en algunos casos también podemos pedir una voz personalizada. Se pueden descargar y hacer pruebas.

Catotron:

https://collectivat.cat/blog/2019-12-05-sintesi-de-la-parla-xxnn/

Festival:

www.cstr.ed.ac.uk/projects/festival/

Nuance:

www.nuance.com

Festcat:

http://festcat.talp.cat/

Aunque la tecnología y la inteligencia artificial en el procesamiento del lenguaje, el reconocimiento y la síntesis del habla avanzan muchísimo y pronto estarán mucho más presentes que ahora en nuestra vida cotidiana, no podemos confiarles todavía temas delicados como los jurídicos o relacionados con la salud, en los que una mala interpretación puede tener consecuencias nefastas.

Para obtener ampliación de información sobre la adaptación de estas tecnologías a sus necesidades, no dude en ponerse en contacto con nosotros.

Share