La síntesis de habla está muy presente en nuestro día a día, ya sea en los contenidos que consumimos o en los asistentes de voz que utilizamos.
Si bien es cierto que la incorporación de este recurso a los sistemas de inteligencia artificial es lo que ha determinado su auge, la idea de que las máquinas emulen el lenguaje natural existe desde mucho antes.
¿En qué consiste la síntesis de habla?
La síntesis de habla consiste en la producción artificial de la misma, a través de medios automáticos, con la intención de crear una imitación del habla humana.
Historia de la síntesis de habla
La síntesis de habla existe desde hace siglos, y hoy, procederemos a hacer un pequeño repaso de su historia:
- En 1779 el científico danés Christian Kratzenstein construyó modelos del tracto vocal humano, los cuales eran capaces de reproducir los sonidos de las cinco vocales (a,e,i,o,u).
- Este proyecto sería continuado por el inventor húngaro Wolfgang von Kempelen, quien creó una máquina operada por fuelles. Esta, según se describe en un texto de 1791, contaba con modelos de labios y lengua, por lo que podía pronunciar tanto consonantes como vocales.
- Basándose en este diseño, en 1837, Charles Wheatstone produce una máquina parlante, y en 1857, M. Faber construye “Euphoria”, artefacto que variaba el tono de voz.
- En los años 30, el físico Homer Dudley que trabajaba en los Laboratorios Bell desarrolla el «vocoder», codificador de voz que analizaba el habla automáticamente. Tras su trabajo con el vocoder, Dudley desarrolla «The Voder». Este es un sintetizador conformado por un teclado y exhibido en la Feria de Nueva York en 1939.
- Entre los años 40 y 50 se construye el “Pattern playback” en los laboratorios Haskinhs. Dicha máquina convierte las imágenes de patrones acústicos del habla en sonido.
- En los 80 y 90 los sistemas dominantes eran el DECtal, que partía del trabajo de Dennis Klatt, y el sistema de los Laboratorios Bell. Este último se convertiría en uno de los primeros sistemas multilenguaje independientes, usando los métodos de procesamiento de lenguajes naturales.

Estos primeros sintetizadores del habla eran poco inteligibles y sonaban como robots. Con el paso del tiempo, la síntesis de habla ha ido mejorando, pero para que esta suene lo más natural posible, tiene que superar una serie de procesos.
Producción de voz sintetizada
A la hora de generar voz sintetizada, nos encontramos con dos procesos: del texto al habla y del habla al texto. En cualquier caso, para elaborarla se deben aunar los siguientes procedimientos:
- Texto a voz (Text to Speech – TTS): este tipo de tecnología consiste en producir audio a partir de un texto escrito. De esta manera, el texto se convierte en voz sintetizada siguiendo una serie de algoritmos y modelos lingüísticos propios del sistema.
- Voz sintetizada basada en redes neuronales: cuando se genera una voz sintetizada a partir de redes neuronales, método propio de la inteligencia artificial, se enseña a las máquinas a procesar información de una forma parecida a como lo hace el cerebro humano. En esta técnica, se usan dichas redes para crear un modelo de habla a partir de datos de entrenamiento.
- Voz sintetizada basada en unidades de habla: se utilizan grabaciones de audio cortas, que incluyen sonidos de vocales y consonantes. Estos sonidos, posteriormente, se usarán para conformar palabras y oraciones completas.

Estos procesos llevan intrínsecas una serie de fases, como por ejemplo la recopilación de datos de entrenamiento para enseñar al modelo de aprendizaje cómo debe sonar el habla sintetizada, o un análisis fonético centrado en aspectos como el acento o la entonación.
Además, una vez se produce el sonido a través de los algoritmos y modelos lingüísticos mencionados, este se puede editar y arreglar. Esta etapa es ideal para corregir errores y para mejorar la voz sintetizada, haciendo los ajustes necesarios para que el audio suene natural.
El objetivo final de este proceso es que la voz sintetizada se acerque lo máximo posible a la locución humana. Este propósito se ha visto facilitado tras la incorporación de la síntesis de habla en los sistemas de inteligencia artificial.
La incorporación de la síntesis de habla a los sistemas de inteligencia artificial
Las herramientas de inteligencia artificial solo han tenido que incorporar la síntesis de habla, que como hemos señalado, existía ya desde hace mucho.
A través de esta integración se consigue una comunicación mucho más natural. A su vez, también ha supuesto un cambio en la interacción entre los usuarios y estos sistemas.
Interacción con los usuarios
Cuando nos comunicamos con un altavoz inteligente, este habla con nosotros, y nosotros con él. De este modo, debe existir un reconocimiento de voz, dado que el sistema debe procesar lo que le decimos, para entenderlo y seguir las directrices marcadas.
Las órdenes que le damos a Siri, por ejemplo, pueden ir desde que realice una búsqueda a través de internet, hasta que nos lea un mensaje. Como ves, la base de todo siempre es un texto, ya que, aunque este no esté presente, el habla conlleva siempre a tener un texto implícito.
Con esta incorporación los sintetizadores ya no solo se limitan a emular el lenguaje humano, sino que pueden llegar a tener una conversación con los usuarios.

Por lo demás, siguen ofreciendo los mismos resultados que ofrecían anteriormente, y continúan teniendo la misma limitación: la falta de naturalidad.
Y aunque hayan mejorado mucho en este aspecto, y lo sigan haciendo, seguramente nunca logren conseguirla del todo, ya que las emociones, y por ende, la naturalidad, son características únicas de la raza humana.
La voz humana y las voces sintetizadas
Si bien es cierto que las voces sintetizadas pueden imitar muy bien el habla humana, hay ciertas características de esta última que nunca podrán emular.
La síntesis de habla y la falta de emociones
La síntesis de habla puede imitar acentos, tonos, entonaciones… Pero nunca será capaz de expresar emociones como lo hace una voz real. Aunque es cierto que puede simularlas, estas no van a sonar naturales, al menos a corto plazo.
Nuestra voz va cambiando en función de nuestro estado de ánimo, cuando nos reímos o nos enfadamos, cuando nos emocionamos…Y los sistemas de inteligencia artificial nunca podrán emular esto.
El habla sintetizada no comunica emociones ni habla de ellas. Por esta razón, no consiguen crear un vínculo con el oyente, ni perduran en el recuerdo como lo hace el habla humana.
El habla humana y sus peculiaridades
Cada persona se comunica de una forma diferente. Tenemos nuestras muletillas, nuestras propias expresiones, y hacemos determinadas pausas al hablar.
A un sistema de inteligencia artificial no le costará nada calcar un acento, pero nunca será capaz de simular ciertas ambigüedades del lenguaje completamente, como la ironía y el sarcasmo.
A su vez, en las voces sintetizadas no encontramos la calidez que suele estar presente en la voz humana, por lo que este tipo de voces no generarán la misma proximidad que una voz real.
Además, el habla no son solo palabras, es también el sonido que emitimos y cómo lo emitimos, y en este influyen factores como nuestros gestos o nuestra postura, y por supuesto, como ya comentamos, nuestro estado emocional.
Todo ello es lo que aporta esa naturalidad tan característica de la comunicación humana, y es lo que crea una conexión y una cercanía real con aquellos que nos escuchan.

Preferencias de los oyentes
Sabemos que el habla sintetizada no llega a conectar del todo con los oyentes, y un estudio elaborado por el Medical Psychology Lab lo demuestra.
En este participaron 60 personas, con una media de edad de 25 años. Entre otras cosas, lo que se buscaba saber era qué tipo de voz era más adecuada para narrar un audiolibro, y cómo influía el hecho de que esa voz fuera humana o sintetizada.
Los resultados reflejaron que las voces más agradables eran las graves, y que las narraciones con habla sintetizada, realizadas con el altavoz inteligente Alexa, generaron rechazo en muchos participantes.
Por otra parte, las historias narradas con voz humana resultaron más fáciles de recordar y tuvieron un mayor impacto en el público que las relatadas por Alexa.

Pros y contras del uso de la síntesis de habla
Es innegable que la síntesis de habla es un recurso rápido que puede sacarte de un apuro. Además, resulta bastante útil para muchas personas; sin embargo, los resultados no siempre son los mejores.
Pros del habla sintetizada
A pesar de las carencias que pueda presentar el habla sintetizada, también cuenta con diversas ventajas:
- Existen muchas herramientas y aplicaciones capaces de generar este tipo de habla de manera casi inmediata.
- Suponen un ahorro tanto económico como de tiempo.
- Mejoran la accesibilidad de muchos de tus contenidos, permitiendo que por ejemplos las personas con problemas de visión puedan disfrutar de ellos igualmente.
- Los asistentes de voz te permiten realizar varias tareas a la vez, ya que puedes comunicarte con ellos mientras haces otras cosas incompatibles con teclear o usar el móvil.
- En lo que respecta a los navegadores, esta función te permite seguir las indicaciones del GPS sin tener que mirar la pantalla en ningún momento; evitando así distracciones innecesarias.
- Son muy útiles si no cuentas con algún profesional que pueda llevar a cabo las labores de locución de tus vídeos.
En resumen, es cierto que la síntesis de habla te ofrece facilidades en muchos aspectos, pero esto no indica que sea el sistema más adecuado en todas las situaciones y/o contextos.
El habla sintetizada no comunica emociones ni habla de ellas. No crea un vínculo con los oyentes ni perdura en el recuerdo como lo hace el habla humana.
Contras del habla sintetizada
Como ya hemos visto, las principales limitaciones de la síntesis de habla vienen ligadas a las emociones, aunque también cometen errores en otros aspectos:
- Las voces sintetizadas no logran crear una conexión con los oyentes.
- A través del habla sintetizada no se pueden expresar correctamente las emociones.
- Los sistemas de inteligencia artificial no tienen en cuenta las ambigüedades del lenguaje.
- Estas voces a veces fallan en la pronunciación de algunas palabras.
- No perduran en el recuerdo del mismo modo que las voces humanas.
- Les falta calidez y proximidad.
- No generan vínculos emocionales.
- En ocasiones, la falta de naturalidad de la síntesis de habla genera aversión en el público, lo que a su vez provoca falta de atención hacia lo que se le está relatando.
Puede que en una primera instancia no se dé especial importancia a estas cuestiones, pero a pesar de que actualmente el habla sintetizada suene más natural, hay determinadas características que le otorgan personalidad al lenguaje humano y que esta no podrán suplir.
¿Por qué optar por las voces humanas?
No cabe duda de que la tecnología ha avanzado mucho y que las voces sintetizadas cada vez se parecen más a las humanas. No obstante, hay ciertos procesos, como la locución de un audiolibro o de un podcast, que van más allá de lo que ofrecen estas voces.

La naturalidad y la conexión con el público
El profesional que se encargue de las tareas mencionadas leerá varias veces el guion para no equivocarse, y profundizará en el estado de ánimo de cada personaje para darle la entonación más adecuada.
Aunque se puede usar la síntesis de habla para llevar a cabo estos procedimientos, el resultado no será el mismo. Faltarán las pausas características del locutor, la cadencia específica de su voz y todos aquellos detalles que harán que las emociones que se quieran transmitir suenen reales.
Aun así, no se puede negar que el habla sintetizada es un recurso llamativo, ya que puede acortar los tiempos de estos procesos. Pero como ya comentamos en este post, la inmediatez no suele ir ligada a la calidad, por lo que si quieres contar con una buena locución siempre será mejor dejarla en manos de un profesional.
En definitiva, la proximidad, la conexión y el vínculo que puede llegar a crear una voz humana con aquellos que la escuchan no se verá igualada por un sistema de inteligencia artificial.
La síntesis de habla puede parecer muy ventajosa en múltiples aspectos, pero en ningún momento podrá sustituir a la comunicación humana como tal.
Para que tus contenidos lleguen a tener el impacto y el valor necesario para atraer a tu público, es esencial saber cómo hacerlo. En textinnova contamos con profesionales que pueden asesorarte en todo lo relacionado con este tema.
Si tienes cualquier duda ponte en contacto con nosotros o comenta este post. ¡Te ayudaremos en todo lo que necesites!
© TEXTINNOVA GLOBAL CONTENT SLU. Reservados todos los derechos
Ilustraciones: María Rodríguez López
Código de registro: 2304274175432
Fecha de registro: 27-abr-2023 14:46 UTC
URL información pública