N.º 2833 – Mes de la IA: habla masivamente multilingüe


N.º 2833 – Mes de la IA: habla masivamente multilingüe

Es posible que nos hayamos acercado a crear una verdadera Torre de Babel, donde todos en el mundo hablen un idioma, o al menos puedan comunicarse entre sí independientemente del idioma que hablen, gracias a la nueva Meta AI que puede procesar muchos más idiomas. que cualquier otro enfoque hasta la fecha.

cableado explicar :

“Meta AI, el laboratorio de inteligencia artificial (IA) propiedad de Meta Platforms Inc., ha dado un nuevo paso al desarrollar modelos de IA capaces de reconocer y generar voz en más de 1000 idiomas. Los modelos de búsqueda de IA Massively Multilingual Speech (MMS) son avances notables y representan un aumento de diez veces en la cantidad de idiomas que se pueden procesar a través del audio. La sociedad cree que este desarrollo tiene un enorme potencial para la preservación de las lenguas en peligro de extinción.

Para promover la accesibilidad y la innovación, Meta AI hizo públicos los modelos a través del servicio de alojamiento de código GitHub, haciéndolos de código abierto. Al hacerlo, Meta AI tiene como objetivo ayudar a los desarrolladores que trabajan con idiomas a crear nuevas aplicaciones de voz. Estas aplicaciones podrían variar desde servicios de mensajería con comprensión multilingüe hasta sistemas de realidad virtual utilizados en cualquier idioma, dijo la compañía.

Si bien hay alrededor de 7,000 idiomas en el mundo, los modelos de reconocimiento de voz existentes a nivel mundial solo cubren alrededor de 100. Esta limitación se deriva de la gran cantidad de datos de entrenamiento etiquetados necesarios, que solo están disponibles para un pequeño subconjunto de idiomas, incluidos inglés, español y chino.

Para superar este desafío, los investigadores de Meta reciclaron un modelo de IA desarrollado previamente a partir de 2020. Este modelo posee la capacidad de aprender patrones de voz a partir de audio sin depender en gran medida de datos etiquetados, como transcripciones. Los investigadores entrenaron el modelo utilizando dos nuevos conjuntos de datos: uno que contenía grabaciones de audio y el texto correspondiente de la Biblia del Nuevo Testamento en 1107 idiomas, y otro con grabaciones de audio sin etiquetar del Nuevo Testamento en 3809 idiomas.

El equipo refinó los datos de texto y audio de voz para mejorar su calidad, luego usó un algoritmo para alinear las grabaciones de audio con el texto que las acompaña. Este proceso se repitió usando un segundo algoritmo entrenado en los datos recién alineados. Usando este enfoque, el modelo pudo aprender nuevos idiomas de manera más efectiva, incluso sin el texto que lo acompaña.

Michael Auli, un investigador de Meta AI involucrado en el proyecto, explica: “Podemos usar lo que este modelo ha aprendido para luego construir rápidamente sistemas de voz con muy, muy pocos datos. Señaló la falta de conjuntos de datos completos para los idiomas hablados por poblaciones más pequeñas y dijo: “Para el inglés tenemos muchos, muchos buenos conjuntos de datos, y los tenemos para algunos idiomas más, pero simplemente no tenemos eso para los idiomas. que hablan, digamos, 1.000 personas.

Según los investigadores, sus modelos pueden conversar en más de 1000 idiomas y reconocer más de 4000. En comparación con los modelos de empresas competidoras como OpenAI Whisper, los modelos de Meta lograron una tasa de error más baja a pesar de cubrir 11 veces más idiomas.

Obviamente, este es un avance muy importante desde el punto de vista de preservar todos los idiomas y garantizar que la IA pueda beneficiar a todos, no solo a aquellos que viven en los países más ricos y hablan los idiomas más comunes. Y si bien sería bueno que todos hablaran el mismo idioma universal, la IA de voz masivamente multilingüe podría ser la mejor solución. Permitiéndonos alcanzar los cielos como especie una vez más.

¿Es el discurso multilingüe masivo la mejor idea que existe?

Así:

Me gusta cargar…

Contenido original en Inglés


Leave a Reply

Your email address will not be published. Required fields are marked *