Las voces sintéticas no son algo nuevo, llevan muchos años con nosotros pero si que han mejorado en los últimos años pero, ¿qué es una voz sintética?
Una voz sintética es generada por software que, a partir de un texto, produce un audio con las características de una voz humana. También se les conoce como voz digital, voz artificial, Text-to-Speech (TTS) o síntesis de voz.
Hablar sobre voces sintéticas implica considerar las tecnologías que las respaldan. Su denominación técnica es TTS (Text to Speech). En los últimos años, estas tecnologías han experimentado una notable evolución, impulsada por avances en inteligencia artificial, procesamiento de lenguaje natural y tecnologías de síntesis de voz.
En este artículo también hemos hablado con Nieves Ábalos, CEO de Fonos y Cofounder de Monoceros Labs que nos proporciona una visión experta sobre lo que son las voces sintéticas y su aplicación en diversos campos como la medicina y la educación.
¿Cómo ha evolucionado la tecnología TTS?
Empecemos por el principio, las tecnologías TTS han evolucionado en términos de calidad, personalización, multilingüismo, integración y eficiencia, lo que la convierte en una herramienta poderosa y versátil para una variedad de aplicaciones en el mundo digital actual.
Actualmente, permiten producir voces mucho más realistas y naturales y con ritmos cada vez más cercanos al habla humana y esto no es todo, ya que la personalización de la voz ha tomado las riendas y conseguimos que estas voces se pueden adaptar a las preferencias del usuario. Todos estos avances nos permiten desarrollar nuevas herramientas tanto en el ámbito médico como en ámbito educativo.
Por ejemplo los pacientes de ELA podrían mantener su voz con su ritmo, acento o tono y en el ámbito educativo, podemos observar que el desarrollo del multilenguaje podría conectarnos con otros centros educativos sin la barrera del idioma.
En nuestro anterior meetup que organizamos junto a Innoit puedes ver más sobre esto:
¿Por qué todo con lo que hablamos tiende a ser mujer?
Como nos cuenta Nieves, existe un programa de Alexa con un enfoque feminista que busca abordar esta cuestión. La preferencia por voces femeninas en los asistentes virtuales, como Alexa, se justifica por los resultados de investigaciones que sugieren una mejor interacción del usuario con voces femeninas que poseen ciertos rasgos de personalidad específicos. Al desarrollar aplicaciones de voz, es importante reflexionar sobre por qué se elige un determinado rango de personalidad para la voz, más allá de simplemente diseñar la interfaz. Esto se suma a la tendencia común entre los asistentes personales, como Siri, Google Assistant o Alexa, que suelen adoptar características similares de personalidad.
En contraste, Google ha implementado opciones para cambiar el tono de voz de su asistente, ofreciendo incluso voces masculinas. Recientemente, Alexa también ha introducido una voz masculina, aunque es crucial que la voz se alinee adecuadamente con el contenido del mensaje. La personalidad de una voz sintética se desarrolla a través de la elección de palabras, el tono de voz y su comportamiento en diversas situaciones, lo que puede atribuirse a características como la edad, el género o el estado emocional.
Esto resalta la importancia de considerar cómo perciben las personas las características de género en la tecnología. Un estudio mencionado por Clifford Nass investiga la preferencia por voces masculinas en ciertos contextos, como en la navegación GPS de automóviles. Este fenómeno puede relacionarse con los roles de género atribuidos culturalmente, donde las voces masculinas pueden transmitir una sensación de seguridad y confianza. Sin embargo, es esencial desafiar estos estereotipos y explorar nuevas narrativas que demuestren la efectividad de enfoques alternativos. Adaptar la percepción del público hacia una variedad de voces en la tecnología puede contribuir a desmitificar las asociaciones de género preexistentes. Este cambio cultural puede ser impulsado, en parte, por la exposición constante a diversas representaciones, como las voces de género neutro o masculino en los asistentes virtuales.
¿Por qué se necesitan 10 o 40 minutos de audio para captar la voz de una persona?
Hemos seguido preguntándole a Nieves sobre Fonos y cuanto tiempo se necesita para crear una voz y nos contó que el requisito mínimo para captar la voz de una persona varía según la tecnología. Fonos crea modelos personalizados para cada individuo, lo que implica recolectar datos específicos de esa persona. Para captar el timbre vocal básico, se necesitan al menos 10 minutos de audio. Con este tiempo, el modelo puede funcionar con cierta precisión, aunque pueda presentar algunos errores. Sin embargo, para lograr una voz más completa que capture la entonación y otras características vocales, como diferentes estilos de habla, se requieren alrededor de 40 a 45 minutos de audio. Este tiempo adicional permite al modelo adaptarse a diferentes estilos de habla del individuo, lo que resulta en una voz más natural y auténtica. Es importante destacar que otras tecnologías pueden requerir menos tiempo de grabación, pero generalmente utilizan modelos preexistentes que se basan en una amplia variedad de voces de diferentes personas.
¿Qué significa ser una alexa champion?
La parte de comunidad es muy importante en el ámbito tecnológico y hemos querido hablar un poco de la comunidad de Alexa y de como acceder a ella. El reconocimiento de Alexa Champion ha sido específico para las personas que desarrollan para Alexa, es decir, aquellas que crean o desarrollan productos para esta plataforma. Como nos cuenta Nieves, se trata de un programa de reconocimiento establecido por Amazon para aquellos que participan en la comunidad, ya sea mejorando los productos de Alexa, promoviendo su uso o difundiendo información sobre Alexa para atraer a otros a esta comunidad. El programa es internacional y comenzaron a otorgar este reconocimiento, llamado «Alexa Champion», en 2019, aproximadamente a principios de ese año. En España, el programa comenzó en 2018, cuando Alexa se introdujo en el país, pero en Estados Unidos ya existía desde hace algún tiempo.
Nieves, fue nombrada Alexa Champion en 2020, durante una actualización del reconocimiento. En ese momento, había alrededor de 20 Alexa Champions, y junto con ella, también se nombró a Joaquín Engelmo y a Javier Campos en España. Eran solo tres representantes en España en ese momento, aunque posteriormente se amplió el grupo con más personas. En ese momento, era la única mujer, pero en 2023, incluyeron a Clara Jiménez y crearon un formulario para tener un mayor control. Actualmente hay 60 Alexa Champions en el mundo.
Para obtener el reconocimiento mínimo requerido para ingresar es necesario realizar ciertas actividades, como dar charlas sobre Alexa. Nos cuenta Nieves, que aunque no recuerda el número exacto de charlas requeridas, generalmente se buscaba que fueran al menos tres y que fueran lo suficientemente relevantes. Además, estas actividades eran evaluadas por una persona encargada, lo que otorgaba un cierto peso a la contribución realizada. Por ejemplo, dar una charla en un evento importante tendría más impacto que simplemente subir algunos videos sobre Alexa.
Este programa es similar al programa de la comunidad de AWS, AWS Community Builder. Sin embargo, la comunidad de AWS es mucho más grande.
Actualmente, en España, solo estas personas son Alexa Champion:
- Xavier Portilla Edo, Valencia, España
- Nieves Ábalos Serrano, Madrid, España
- Joaquín Engelmo, Madrid, España
- Clara Jiménez Recio, Madrid, España
¿Cómo se consigue una arquitectura de dialecto y acento?
Siguiendo con como son las voces sintéticas y como se crean le preguntamos a Nieves como se podía mantener ese acento tan característico que tenemos cada uno y nos contó que la arquitectura utilizada para desarrollar un sistema de dialecto y acento depende en gran medida de la red neuronal y de la estructura de la red que se utilice. En el caso de su producto, emplean una arquitectura estándar que se adapta y aprende de los datos proporcionados por el usuario. El sistema aprende de manera contextual, lo que significa que capta la pronunciación y el estilo de habla en diferentes contextos lingüísticos. Cuantos más datos de voz proporcione el usuario, mejor podrá el modelo aprender y adaptarse a su acento y dialecto específicos. En esencia, se enfoca en imitar fielmente la forma en que el usuario habla en su entorno natural. Además, utilizan técnicas como las redes generativas adversarias para mejorar la precisión y la autenticidad de la reproducción vocal. En resumen, el diseño de una arquitectura de dialecto y acento implica adaptar la estructura del modelo para priorizar la reproducción precisa del habla del usuario en función de su contexto lingüístico y cultural.
¿Cuál que es el futuro de la conversión de voz?
Nieves nos compartió que en el ámbito musical, por ejemplo, la tecnología de conversión de voz ofrece la oportunidad de mejorar aspectos como el tono, la calidad y el alcance vocal para aquellas personas que podrían no estar totalmente satisfechas con su voz natural. Esta herramienta se está empleando ampliamente en la industria musical, así como en diversos contextos generales. Podemos entender la conversión de voz como la capacidad de interpretar y luego agregar capas adicionales. Por ejemplo, algunas plataformas de videojuegos, como Vos Media, disponen de herramientas que permiten a los usuarios aplicar filtros de voz mientras juegan en línea, lo que constituye otra aplicación de la conversión de voz. Este fenómeno resulta sumamente interesante, ya que la gente tiende a adoptar diferentes comportamientos según la voz que estén utilizando.
¿En que otros casos puede ayudar el uso de las voces sintéticas?
En el caso de personas con ELA, que al final van perdiendo capacidades musculares, también comienzan a perder la voz. Como nos comenta Nieves, su tecnología, con solo unas pocas muestras, permite que estas personas al menos conserven su timbre, que es parte de su identidad. Con unas pocas muestras más, se puede incluso mantener su acento y otras características vocales. Esto les brinda autonomía, ya que cualquier texto que escriban se puede convertir en su voz real. Por ejemplo, mediante un dispositivo con botones, pueden comunicarse en tiempo real. Es importante considerar esto para aquellas personas que comienzan a tener problemas de movilidad y les resulta difícil escribir, ya que necesitan otros mecanismos para expresarse y comunicarse. En resumen, la voz es esencial y la conversión de voz puede ser una herramienta invaluable en diversas situaciones.
Preguntamos también sobre los ámbitos inesperados en los que se puede utilizar la conversión de voz, y nos compartió una historia interesante. Comenzamos hablando sobre los usos no tan inesperados, como la accesibilidad en medios de transporte, donde se utiliza para guiar en rutas. Luego, Nieves reflexionó sobre cómo la tecnología ha evolucionado, haciendo que lo que antes era inesperado ahora sea más común, como el uso de la conversión de voz en la creación de contenido.
También mencionó que, aunque los asistentes de voz no son sorprendentes, hay otros ámbitos, como la salud, donde la conversión de voz puede tener un impacto importante. Por ejemplo, mencionó el caso de Stephen Hawking y cómo la tecnología le permitió comunicarse a pesar de la pérdida de su voz.
Nieves compartió un proyecto conmovedor en el que participó. Trabajó con una agencia de comunicación y una farmacéutica que desarrollaba un producto para mujeres con cáncer de mama metastásico. Realizaron entrevistas con pacientes y crearon una voz, llamada «Esperanza», que representaba la lucha y la esperanza de estas mujeres. Utilizaron la tecnología de inteligencia artificial para capturar el timbre y la esencia de las voces de las pacientes, transmitiendo así lo bonito del proyecto.
Este proyecto no solo se utilizó en un evento, sino que también se incorporó en campañas de marketing. Esto demuestra el potencial de la conversión de voz en situaciones emocionales y de salud.
En resumen, la entrevista con Nieves Ábalos destaca cómo la tecnología de voces sintéticas ha evolucionado significativamente en los últimos años, brindando herramientas más avanzadas y versátiles. Desde su aplicación en medicina hasta la educación, estas voces están transformando diversos ámbitos de nuestra sociedad. Además, la preferencia por voces femeninas en asistentes virtuales refleja investigaciones sobre interacción de usuarios y estereotipos de género. Aunque la representación de mujeres en comunidades de desarrollo de voz puede ser limitada, es crucial promover la diversidad en estos espacios.