Theres

Theres Preißler

Marketing

24 de marzo de 2024

La verdad sobre las voces de IA para audioguías: ¿Valen realmente la pena?

Nubart's blog - the truch about AI voices in audio guides

Las voces generadas por inteligencia artificial ofrecen nuevas oportunidades para la producción de audioguías. La creación fácil y rápida de voces artificiales que locuten el guión en distintos idiomas puede ahorrar mucho dinero y -a veces- también tiempo. Sin embargo, por sorprendentemente perfectas que suenen, estas voces aún tienen bastantes limitaciones, ya que las máquinas aún no son tan adaptables como los humanos. Este artículo señala algunos de los problemas a los que tendrás que enfrentarte cuando implementes voces IA en una audioguía.


¿Cómo funcionan?

La IA ha mejorado muchos aspectos de nuestra vida. Con la llegada de las voces generadas por IA, también se ha visto afectado el sector de las audioguías. Utilizando tecnologías como la conversión de texto a voz (TTS) y el procesamiento del lenguaje natural (NLP), cualquier texto puede convertirse con un par de clics en una voz artificial que guíe a tus visitantes.

Emplear voces de inteligencia artificial para tu audioguía tiene las siguientes ventajas:

Principales ventajas de las voces IA para una audioguía


1 - Asequible

Si tienes un presupuesto ajustado, pero aun así quieres producir una audioguía para tu museo, las voces de IA pueden ser una buena solución. En comparación con la producción de voces humanas, las voces de IA son mucho más baratas, ya que es básicamente una máquina la que hace el trabajo.


2 - Producción rápida... hasta cierto punto

Utilizar voces de IA para tu audioguía garantiza una producción relativamente rápida, ya que se pueden producir rápidamente diferentes idiomas y acentos. Sin embargo, no es tan sencillo como pulsar un botón y disponer mágicamente de una voz casi humana.

Si te tomas en serio la calidad de tu audioguía, tendrás que escuchar atentamente cada pista y, en la mayoría de los casos, editarlas manualmente. Este proceso de edición puede llevar mucho tiempo, ya que la IA aún no es perfecta y los ajustes deben ser realizados por humanos.

Por ejemplo, tienes que calcular el tiempo para la renderización. Una vez que hayas cargado tu guión y elegido la voz que más te guste, tendrás que esperar a que la plataforma que hayas elegido haga su magia y produzca la pista de sonido. Un texto corto de 65 palabras (= cuatro líneas) tardará unos 7 segundos en renderizarse. 7 segundos pueden no parecer gran cosa... pero se vuelven muy molestos en cuanto te das cuenta de que tienes que esperar esos 7 segundos una y otra vez por cada mínima edición que hagas en la pista.

Sólo si tienes una gran cantidad de texto que convertir en voz y no te importa mucho la calidad del resultado, las voces AI no sólo serán asequibles, sino también rápidas.


3 - Grabación fiel del guión

Cualquiera que haya trabajado con locutores humanos sabrá que las palabras mal escritas o transpuestas y las omisiones de sílabas, de palabras o incluso de frases enteras son casi inevitables. De ahí que una parte tediosa pero necesaria de la producción de una audioguía sea escuchar todas las pistas de audio comparándolas línea a línea con el guión para encontrar esos errores y pedirle al locutor humano que los corrija.

Al menos en este sentido, las voces de la IA son perfectas: la voz artificial te dará exactamente lo que haya en el guión. Pero no te alegres demasiado pronto: igualmente vas a tener que escuchar todas las pistas, aunque por otras razones, como verás muy pronto.

Hasta aquí hemos enumerado las ventajas. Ahora veamos los inconvenientes:


Principales desventajas de las voces generadas por inteligencia artificial para las audioguías


1 - Falta de emoción

Las voces IA están mejorando mucho y suenan verdaderamente humanas. Pero aun así, las máquinas siguen siendo máquinas y aún no disponen de todo el amplísimo espectro de la capacidad humana para expresar emociones. Los actores de doblaje y locutores profesionales están entrenados para modular su voz de modo que ésta no solo resulte real, sino convincente. Si es importante para ti que las voces de tu audioguía tengan personalidad, sean cautivadoras, emotivas y dejen una impresión duradera, las voces humanas van a ser una opción mucho mejor. Sobre todo si tienes una idea muy concreta de cómo quieres que suenen tus locuciones, una voz de IA no va a estar a la altura de tus expectativas.

La mayoría de las plataformas de voz de IA actuales te permiten establecer una tonalidad de lectura para tu texto, como "inspirador", "promocional", "triste", "tranquilo" o "conversacional". Es un buen enfoque, pero lleva mucho tiempo experimentar con las distintas opciones y ver cómo suena cada uno de estos tonos para cada una de las voces de IA que te ofrezca la máquina, sobre todo porque cada vez que pruebes una tonalidad diferente vas a tener que esperar a que se produzca la renderización.

Y si buscas una voz de IA que exprese la sutil tristeza que requeriría la frase "Desgraciadamente, el resto del edificio quedó destruido durante la guerra", es probable que tengas dificultades, ya que el tono triste de los generadores de voz de IA expresa un dramatismo excesivo.

La sutileza en la inflexión de la voz no es (¿todavía?) una habilidad que dominen las voces artificiales.


2 - Percepción subconsciente negativa

CloudArmy realizó un estudio en el que se analizaron las reacciones subconscientes de los participantes a diversos anuncios locutados por una voz artificial. Se descubrió que, aunque los participantes no siempre eran capaces de distinguir conscientemente entre las voces humanas y las de IA, sus respuestas implícitas a las voces artificiales eran menos positivas que a los mismos anuncios locutados por humanos.

A nivel del subconsciente, las voces artificiales inspiran menos confianza.

Aunque una audioguía de museo se mueva en un contexto un contexto muy diferente al de un anuncio publicitario, estas percepciones subjetivas no son irrelevantes. Para integrar con éxito las voces artificiales es importante comprender cómo las percibirán los visitantes.

Las voces de la IA son como una sonata de piano creada por un sintetizador, que suena mucho más perfecta de lo que jamás podría tocar un humano, pero es incapaz de resonar subconscientemente con nosotros. Carecen de la belleza de la imperfección. Ése es un territorio que nos sigue estando reservado a los humanos.


3 - Errores difíciles de corregir

La tecnología de IA aún está en desarrollo. Los errores no son infrecuentes. Por ejemplo, puede que la máquina no reconozca la forma de puntuar en un idioma determinado y, por tanto, tenga problemas para crear la entonación correcta. O puede que los números no se pronuncien correctamente. Estos errores tienen que ser corregidos por humanos, lo que puede llevar mucho tiempo y a menudo ni siquiera es posible.

A todo esto se añade que comunicar instrucciones a un generador de voz de IA resulta difícil. A un locutor humano puedes decirle "por favor, haz una pausa después de cada frase" y lo entenderá inmediatamente. Pero con una voz artificial, tienes que señalar manualmente cada una de esas pausas a lo largo de todo el guión y, además, indicar en cada una de ellas su duración.

Las abreviaturas son un reto importante. La mayoría de las voces de IA probablemente pronuncien correctamente las abreviaturas más conocidas, porque así las han entrenado los programadores. Aunque al trabajar con varios idiomas, como sin duda tendrás que hacer para tu audioguía, verás enseguida que las voces inglesas han sido muchísimo mejor entrenadas que, por ejemplo, las españolas.

Si tu guión dice que alguien se compró un "VW Polo", la voz artificial dirá "be doble be polo", y un "iPhone" se convierte en un "ipóne". Tendrás que buscar todas las abreviaturas en tu guión y sustituirlas una a una por lo que quieres oír. ¡Pero ojo al hacerlo! Si te limitas a poner "Volkswagen Polo", la voz te dirá "folgsbajen polo", ya que lo leerá como se leería en castellano. Más vale que escribas "bolksbaguen polo", o "aifon", por muy ridículo que te resulte hacer eso.


4 - La pesadilla de las palabras extranjeras

Eso nos lleva a otro gran reto de las voces artificiales: la pronunciación de palabras extranjeras. Esto es especialmente problemático en el mundo de los museos, un sector especialmente sensible a la comunicación intercultural.

Por ejemplo, imagina tener como cliente un museo de moda con vestidos de Yves Saint Laurent. A pesar de todos nuestros esfuerzos, hasta ahora aún no hemos conseguido que ninguna de las voces de IA españolas pronuncie correctamente -es decir, "a la francesa"- el nombre de esta marca. Sobre todo si tu cliente es un museo francés, tienes un serio problema.

La mayoría de los generadores de voz de IA permiten aplicar el Alfabeto Fonético Internacional (AFI) a determinadas palabras. Sin embargo, hasta ahora no hemos visto resultados muy satisfactorios. Además, este método requiere mucha paciencia y conocimientos especializados de fonética y fonología en tu equipo, sobre todo porque no siempre es posible encontrar la transcripción oficial del AFI en Internet y hay que saber transcribir los extranjerismos manualmente.


Cómo se aplican las voces artificiales en una audioguía

Si decides generar voces artificiales para tu audioguía, tendrás que registrarte en uno de los generadores de voces de IA actualmente existentes, como Murf AI, ElevenLabs, PlayHT, LOVO AI, Narakeet, Resemble AI o Typecast, entre muchos otros. Puedes elegir entre una gran variedad de voces que representan diferentes edades, géneros, idiomas y estados de ánimo. Una vez que hayas elegido una voz y subido tu guión, podrás renderizar las psitas de sonido. A partir de este punto, hay dos formas posibles de proceder con la producción de tu audioguía:

  1. Crear las voces por el generador de voces de IA "a granel", sin ninguna edición posterior. Aceptas que habrá muchos errores, como pausas o pronunciación incorrecta, que no serán eliminados y que los visitantes sin duda notarán.
  2. La segunda opción es que un miembro de tu equipo edite manualmente las pistas de audio de la IA añadiendo o eliminando pausas, ajustando el tono, la velocidad y la tonalidad, y corrigiendo los errores de pronunciación cuando sea posible. Así es como trabaja Nubart con las voces de IA que ofrecemos en nuestro nivel de servicio más bajo, llamado Cobre. Lleva mucho más tiempo que la primera opción, pero procuramos acercarnos todo lo posible a nuestros elevados estándares "humanos" y lograr un resultado final que satisfaga a nuestros clientes, dentro de las limitaciones de la IA descritas aquí.

¿Por qué voz te decides, artificial o humana?

Si has leído hasta aquí, ya habrás visto que las voces de la IA aún están lejos de ser una solución perfecta para la produción de tu audioguía. De momento, las voces humanas siguen ganando la batalla. También en términos de tiempo y esfuerzo invertidos por el equipo de producción y edición de sonido. Las voces humanas son capaces de transmitir emociones reales, dejar una impresión duradera y contar la historia que realmente quieres contar. Sin embargo, si tu presupuesto no te permite utilizar voces humanas, las voces de IA pueden ser una buena alternativa siempre y cuando mantengas unas expectativas realistas sobre su potencial. Puede que las voces artificiales aún no estén a la altura, pero aún así pueden ser útiles y proporcionar información valiosa a tus visitantes.