Actualidad

La IA de Microsoft VALL-E imita sus voces en 3 segundos

By Baptiste, on 19 January, 2023 - 3 min read

Microsoft acaba de presentar una tecnología de IA llamada VALL-E que promete revolucionar la forma en que interactuamos con las máquinas.

Utilizando modelos avanzados de conversión de texto a voz basados en transformadores, este extraordinario sistema puede recrear cualquier voz a partir de un clip de apenas tres segundos.

Si bien esta tecnología es prometedora, hay que abordarla con cautela… Debugbar hace balance de ella por ti.

Tecnología VALL-E de Microsoft: ¿qué es?

VALL-E es un modelo de conversión de texto en voz que utiliza mecanismos de autoatención y redes neuronales profundas para generar un sonido de voz realista a partir de una muestra de tres segundos.

Este sistema es capaz de producir imitaciones extraordinariamente realistas de cualquier voz, y también podría utilizarse para crear otras totalmente nuevas.

Pero eso no es todo, esta IA también puede integrarse con otros modelos de IA generativa, como el GPT-3 de OpenAI, para crear contenidos personalizados a partir de texto.

Esto promete una amplia gama de posibles usos:

  • síntesis automática del habla en videojuegos
  • servicios de asistencia virtual,
  • creación de contenidos creativos,
  • y mucho más.

Estas múltiples capacidades pueden ser muy útiles, pero también peligrosas si se ponen en las manos equivocadas.

VALL-E: Muchas ventajas, pero también cuestiones éticas…

Las implicaciones potenciales de la tecnología de IA VALL-E de Microsoft son considerables, ya que podría ofrecer un nivel totalmente nuevo de interacción y comunicación entre humanos y máquinas.

Sin embargo, mal utilizada, esta tecnología también podría tener consecuencias negativas.

Por ejemplo, podría utilizarse para:

  • Llamadas telefónicas fraudulentas.
  • Difundir noticias falsas con voces realistas.
  • Implementar tácticas de miedo con el uso de voces generadas por IA.
  • El desarrollo de estrategias de vigilancia por parte de las empresas para recopilar información más detallada sobre las personas sin su conocimiento o consentimiento.

Además, los avances en IA también pueden tener amplias implicaciones económicas, especialmente en lo que respecta al desplazamiento de puestos de trabajo.

De hecho, a medida que se desarrolle VALL-E, algunas empresas podrían plantearse sustituir a personas reales por clips de audio generados por IA. Esto podría reducir el número de empleos disponibles y los salarios de quienes realizan este tipo de trabajo.

Así pues, es cierto que, retratada de esta manera, la IA puede dar miedo. Sin embargo, si se utiliza correctamente, podría ser de gran ayuda en muchos campos. Esto es lo que vamos a ver ahora.

Algunos ejemplos de aplicaciones de VALL-E

El desarrollo de VALL-E ofrece muchas posibilidades de uso:

  • En el sector de la comunicación.
  • En la industria del entretenimiento.
  • En el sector de la educación.
  • En el sector sanitario.

En el sector de la comunicación

Al crear voces sintéticas realistas, VALL-E podría ofrecer una experiencia mejorada a las personas que trabajan con máquinas o a quienes necesitan tecnologías de asistencia.

Por ejemplo, VALL-E podría utilizarse para crear asistentes de voz de inteligencia artificial capaces de comunicarse de forma natural con los humanos en diversos entornos:

  • Asistencia telefónica,
  • consultas médicas virtuales.

En la industria del entretenimiento

VALL-E puede aportar un nuevo nivel de realismo a los diálogos y efectos de sonido de los personajes de películas de animación y videojuegos.

También podría utilizarse para crear personajes más diversos con mejores expresiones vocales para transmitir emociones de forma más eficaz.

Por último, podría utilizarse en programas de radio en los que no se dispone de actores reales pero se necesitan voces realistas.

En el campo de la educación

Las funciones de conversión de texto a voz de VALL-E también podrían tener implicaciones en el campo de la educación.

Por ejemplo, podrían ayudar a crear experiencias de aprendizaje personalizadas proporcionando conferencias o lecturas de audio sintetizadas y adaptadas específicamente a las necesidades de cada estudiante.

Por otra parte, los audiolibros generados por IA podrían permitir a las personas con problemas de visión u otras discapacidades acceder a materiales escritos a los que de otro modo no tendrían acceso debido a sus circunstancias.

En el sector sanitario

La sanidad es un ámbito en el que la tecnología VALL-E de Microsoft podría ser muy útil.

Al crear un habla realista para consultas médicas virtuales o interacciones telefónicas con pacientes, VALL-E puede ayudar a salvar la distancia entre pacientes y profesionales sanitarios sin necesidad de contacto físico entre ellos.

Además, gracias a su capacidad para generar rápidamente clips de audio a partir de pequeñas cantidades de información del paciente, también puede acelerar los diagnósticos y reducir los tiempos de espera para recibir atención médica.

VALL-E en resumen

En conjunto, la tecnología de inteligencia artificial VALL-E de Microsoft ofrece muchas posibilidades interesantes, pero también plantea importantes consideraciones éticas que deben abordarse antes de seguir adelante con su aplicación en el mundo real.

Los beneficios potenciales son significativos, pero también lo son los inconvenientes. Sólo el tiempo dirá cómo este revolucionario modelo de IA moldeará nuestras vidas en los próximos años.

Baptiste