Ya hemos abordado en más de una ocasión el potencial de la IA con respecto a la creación y edición de imágenes. Pero la Inteligencia Artificial se sigue expandiendo, y el día de hoy debemos preguntarnos por el futuro; más concretamente sobre el generador de voz VALL-E 2 y su uso de la IA. ¿Será una nueva revolución?
En principio, no hay dudas de que el generador de voz VALL-E 2 AI de Microsoft representa un gran avance en estas tecnologías, siendo capaz de crear voces increíblemente realistas y parecidas a las humanas. Eso no quita que debamos plantearnos importantes preguntas acerca de su potencial impacto y sus implicaciones éticas.
Básicamente, la dicotomía es la de siempre respecto de la Inteligencia Artificial. Aunque VALL-E 2 podría mejorar sustancialmente los asistentes virtuales y hacer que nos divirtamos más, la misma tecnología podría aprovecharse para fines cuestionables moralmente. Como no vamos a resolver la moral de la IA, al menos debemos interiorizarnos todo lo que podamos en torno a las plataformas que son lanzadas al mercado y qué supone cada una de ellas.
Entonces, ¿qué es Microsoft VALL-E 2 AI Voice Generator?
VALL-E 2 AI Voice Generator es un modelo avanzado de lenguaje de códec neuronal para la síntesis de texto a voz. Logra un habla similar a la humana al refinar el muestreo de núcleos y organizar los códigos de códec en grupos. Como resultado, consigue elevar la calidad de la voz y proporcionar una naturalidad por encima de la media.
En este punto hay que aclarar que Microsoft define a VALL-E 2 como un proyecto puramente de investigación. Lamentablemente, conocemos demasiadas experiencias que iniciaron así y acabaron desviándose de su camino. Microsoft afirma que no hay planes de acceso al público ni de integración de este producto en otros de sus sistemas.
Capacidades únicas del generador de voz con inteligencia artificial VALL-E 2
Son numerosas las capacidades que podríamos considerar «únicas» del generador de voz VALL-E 2 de Microsoft.
- Paridad humana: VALL-E 2 puede generar un habla precisa y natural, comparable a la voz de una persona real.
- Modelos de lenguaje de códecs neuronales: a diferencia de su predecesor, VALL-E 2 destaca por poder replicar la resonancia y la articulación de un hablante humano. Para un desprevenido, es imposible distinguirlo al 100%.
- Síntesis de voz realista: VALL-E 2 logra un realismo excepcional en la síntesis de voz a través de algoritmos avanzados de aprendizaje profundo y amplios conjuntos de datos para un timbre y unos matices exactos.
- Robustez del habla: VALL-E 2 controla las oraciones tradicionalmente desafiantes con mayor facilidad.
- Preservación de la identidad del hablante: puede mantener la identidad del hablante a lo largo del mensaje.
- Inflexión emocional: VALL-E 2 sobresale por sumar profundidad emocional a las voces generadas. Integra perfectamente matices que son indicios de alegría, tristeza, etc. Así aumenta la naturalidad de la voz.
- Compatibilidad con varios idiomas: VALL-E 2 admite una amplia variedad de idiomas, lo que permite aplicaciones globales e inclusivas y deja de lado las restricciones que tienen otras soluciones semejantes.
¿Por qué no se permite el acceso al público?
Puedes darte una idea de cómo funciona VALL-E 2 gracias a una publicación de Microsoft, en este enlace, pero no tienes acceso público a esta tecnología. Por el momento, eso no cambiará. La razón principal de esta decisión es impedir los posibles riesgos asociados con el uso indebido de esta tecnología. Sobre todo, las suplantaciones.
Microsoft ha informado su preocupación por el hecho de que VALL-E 2 pueda adaptarse a actividades perjudiciales, como fraudes basados en la voz u otros fines maliciosos. Afirman que priorizan la aplicación de medidas preventivas para mantener a los usuarios seguros, y que recién una vez que haya sido implantadas analizarán algún lanzamiento.
¿Cuáles son nuestras conclusiones ante la llegada de VALL-E 2?
Si bien ésta no es la primera experiencia que tenemos y que une a la Inteligencia Artificial y las voz generadas mediante esta tecnología innovadora, sí es una de las más retadoras. El generador de voz VALL-E 2 representa evidentemente un avance significativo en este campo, y su capacidad de crear voces realistas abrirá interesantes posibilidades en diversas industrias. Esto, sin obviar de ninguna manera las implicaciones éticas del caso.
Eso sí, Microsoft se ha mostrado consciente y comprometida con la indispensable regulación del uso de la IA para evitar su utilización indebida. En particular, claro, en áreas sensibles como la suplantación de identidad y el fraude.
Esta semana, Spotify presentó su servicio de DJ en español con la nueva voz de IA «Livi» para hispanohablantes.