Capacitación de clasificadores de audio integrados para Nicla Voice en conjuntos de datos sintéticos


Capacitación de clasificadores de audio integrados para Nicla Voice en conjuntos de datos sintéticos

Equipo Arduino — 10 de mayo de 2023

La tarea de recopilar suficientes datos para clasificar sonidos distintos no capturados en un conjunto de datos más grande y sólido puede llevar mucho tiempo, al menos hasta ahora. En su artículo, Shakhizat Nurgaliyev describe cómo usó una variedad de herramientas de inteligencia artificial para crear automáticamente un conjunto de datos de exploración de palabras clave sin necesidad de hablar por un micrófono.

El oleoducto se divide en tres partes principales. Primero, el motor de texto a voz de Piper se descargó y configuró a través de un script de Python para generar 904 muestras distintas del modelo TTS que indicaban el apellido de Nurgaliyev de varias maneras para reducir el sobreajuste. A continuación, se generaron indicaciones de ruido de fondo mediante ChatGPT y se introdujeron en AudioLDM, que genera los archivos de audio en función de las indicaciones. Finalmente, todos los archivos WAV, así como los sonidos “desconocidos” del conjunto de datos de Google Speech Commands, se cargaron en un Proyecto Arduino ML.

Entrenamiento del modelo para su posterior implementación en un Consejos de voz Nicla se logró agregando un bloque de procesamiento de audio Syntiant y luego generando funciones para entrenar un modelo de clasificación. El modelo resultante pudo determinar con precisión cuándo se pronunció la palabra objetivo aproximadamente el 96 % de las veces, todo sin la necesidad de recopilar manualmente un conjunto de datos.

Para saber más sobre este proyecto, puedes consulte la descripción detallada de Nurgaliyev en Hackster.io.

Puede seguir cualquier respuesta a esta entrada a través de la fuente RSS 2.0. Puedes deja una respuestao trackback desde su propio sitio.

Contenido original en Inglés


Leave a Reply

Your email address will not be published. Required fields are marked *