#2,737 – VALLE-E | El más grande. Idea. Ya.


#2,737 – VAL-E

La inversión en OpenAI de Microsoft y la integración de Microsoft Office/Bing para ChatGPT ha estado en las noticias últimamente, pero esa no es la única noticia que sale de Redmond, Washington. ¡VALL-E ha generado mucho revuelo y es capaz de sintetizar tu voz a partir de una grabación de solo tres segundos! En un mundo lleno de deepfakes y noticias falsas, ese es un pensamiento inquietante. Si ni siquiera podemos creer nuestros propios oídos, ¿qué podemos creer?

Engadget Explique :

“La última investigación de Microsoft sobre IA de texto a voz se centra en un nuevo modelo de IA, VALLE. Aunque ya existen varios servicios capaces de crear copias de tu voz, generalmente requieren una contribución sustancial. Microsoft afirma que su modelo puede simular la voz de alguien con solo una muestra de audio de tres segundos. El habla puede coincidir tanto con el timbre como con el tono emocional del hablante, o incluso con la acústica de una habitación. Algún día podría usarse para aplicaciones de texto a voz personalizadas o de alto nivel, pero al igual que las falsificaciones profundas, existen riesgos de uso indebido.

Los investigadores entrenaron a VALL-E en 60 000 horas de habla en inglés de más de 7000 hablantes en la biblioteca de audio Libri-Light de Meta. Los resultados no son perfectos: algunos son muestras diminutas, similares a máquinas, mientras que otros son sorprendentemente realistas. »

Agregar tecnica ars“Microsoft llama a VALL-E un ‘modelo de lenguaje de códec neuronal’ y se basa en una tecnología llamada EnCodec, que Meta anunció en octubre de 2022. A diferencia de otros métodos de síntesis de voz que normalmente sintetizan el habla en la manipulación de formas de onda, VALL-E genera audio discreto códigos de códec a partir de indicaciones textuales y acústicas. Esencialmente, analiza el sonido de una persona, divide esta información en componentes discretos (conocidos como “tokens”) a través de EnCodec y utiliza datos de entrenamiento para comparar lo que “sabe” sobre cómo sonaría esa voz si pronunció otras frases fuera de la muestra de tres segundos.

Personalmente, creo que la tecnología es intrigante si se usa de la manera correcta. Tal vez su clon de voz podría chatear con los vendedores telefónicos y reducir sus facturas mientras el verdadero hace algo más por usted. Me gusta especialmente el nombre. Rindiendo homenaje tanto a DALL-E como a Uncanny Valley. Esperemos que se use por la razón correcta y no para iniciar guerras haciendo que los políticos digan cosas que no dijeron.

¿Es VALL-E la idea más grande de todos los tiempos?

Así:

Me gusta cargar…

Publicado en Tecnología | Deja un comentario

Contenido original en Inglés


Leave a Reply

Your email address will not be published. Required fields are marked *