N.° 2789 – Mes de la IA: EchoSpeech
11 de mayo de 2023 por Craig Shames
Es posible que pronto tengamos anteojos alimentados por IA que puedan leer nuestros propios labios para que podamos controlar dispositivos e interactuar con asistentes de voz sin siquiera hablar. El sistema tiene limitaciones y puede ser difícil de escalar, pero brinda otro ejemplo de cómo podemos usar la IA de manera creativa para mejorar nuestras vidas.
negocio rapido explicar :
“EchoSpeech, como se llama el sistema, no es una aplicación, es un par de anteojos aparentemente estándar. Como se indica en un nuevo libro blanco, las gafas (compradas comercialmente) pueden leer los labios del usuario y ayudar a aquellos que no pueden hablar a realizar tareas básicas como desbloquear su teléfono o pedirle a Siri que suba el volumen del televisor sin tener que hacer un solo sonido. Todo suena como telequinesis, pero las gafas, que cuentan con dos micrófonos, dos altavoces y un microcontrolador tan pequeño que prácticamente se mezclan entre sí, en realidad dependen del sonar.
Más de mil especies Usa el sonar para cazar y sobrevivir. Quizás el más popular de estos es la ballena, que puede enviar pulsos de sonido que rebotan en objetos en el agua y luego se recuperan para que el mamífero pueda procesar esos ecos y construir una imagen mental de su entorno, incluido el tamaño y distancia de los objetos alrededor. Él.
EchoSpeech funciona de la misma manera, excepto que el sistema no se enfoca en la distancia. En cambio, rastrea cómo las ondas de sonido (inaudibles para el oído humano) pasan a través de su cara y cómo golpean varias partes móviles de la misma. El proceso se puede resumir en cuatro pasos clave. En primer lugar, los pequeños altavoces (ubicados a un lado de las gafas) emiten ondas sonoras. A medida que el usuario pronuncia varias palabras, las ondas de sonido viajan a través de su rostro y golpean varios “articuladores” como los labios, la mandíbula y las mejillas. Los micrófonos (ubicados al otro lado de las gafas) luego recogen estas ondas sonoras y el microcontrolador las procesa. con cualquier dispositivo con el que se emparejan las gafas.
Pero, ¿cómo sabe el sistema que debe asignar una palabra en particular a un movimiento facial en particular? Aquí, los investigadores utilizaron una forma de inteligencia artificial conocida como algoritmo de aprendizaje profundo, que enseña a las computadoras a procesar datos como lo hace el cerebro humano. “Los humanos son inteligentes. Si practica lo suficiente, puede simplemente mirar la boca de alguien, no escuchar ningún sonido, y puede inferir el contenido de su discurso”, dice el autor principal del estudio, Ruidong Zhang.
El equipo usó un enfoque similar, excepto que en lugar de que otro ser humano infiriera el contenido de su discurso, el equipo usó un modelo de IA preentrenado para reconocer ciertas palabras y unirlas con un “eco de perfil” correspondiente a la cara de una persona. Para entrenar a la IA, el equipo pidió a 24 personas que repitieran una serie de palabras mientras usaban las gafas. Tuvieron que repetir las palabras varias veces pero no consecutivamente.
Por ahora, EchoSpeech tiene el vocabulario de un niño pequeño. Puede reconocer los 10 dígitos digitales. Puede capturar direcciones como “arriba”, “abajo”, “izquierda” y “derecha”, que Zhang dijo que podrían usarse para dibujar líneas en software asistido por computadora. Y puede activar asistentes de voz como Alexa, Google o Siri, o conectarse a otros dispositivos habilitados para Bluetooth…
Hasta el momento, EchoSpeech es una intrigante prueba de concepto con un enorme potencial para las personas con discapacidades, pero el equipo no espera que se pueda utilizar hasta dentro de cinco años. Y eso es solo para el idioma inglés. “La dificultad es que cada idioma tiene sonidos diferentes”, explica François Guimbretière, coautor del estudio, que es francés. Y diferentes sonidos pueden significar diferentes movimientos faciales. Pero también depende de los tipos de lenguajes en los que se entrena el modelo de IA. ‘Hay un impulso para cuidar de [other] idiomas para que toda la tecnología no esté centrada en el inglés”, explica Guimbretière. ‘De lo contrario, todos estos [other] las lenguas morirán’”.
Parece que pasará un tiempo antes de que esta tecnología despegue, pero cuando lo haga, podría ser una ballena de tiempo. Especialmente para las personas con discapacidad que no pueden hablar de otra manera.
¿Es EchoSpeech la mejor idea de todos los tiempos?
Así:
Me gusta cargar…