Además de Stable Diffusion y Scribble Diffusion, ahora tenemos Riffusion. Una nueva forma innovadora de generar música a través de imágenes.
crisis tecnológica explicar :
“La música generada por IA ya es un concepto bastante innovadorpero Riffusion lo lleva a otro nivel con un enfoque inteligente y extraño que produce música extraña y cautivadora usando no audio sino imágenes de audio.
Parece extraño, es extraño. Pero si funciona, funciona. Y funciona ! Tipo de.
La difusión es una técnica de aprendizaje automático para generar imágenes que ha sobrealimentado el mundo de la IA durante el último año. DALL-E 2 y Stable Diffusion son los dos modelos más destacados que funcionan al reemplazar gradualmente el ruido visual con lo que la IA cree que debería ser un aviso.
El método ha demostrado ser poderoso en muchos contextos y es muy susceptible de refinamiento, donde le das al modelo más capacitado una gran cantidad de un tipo de contenido específico para especializarlo en la producción de más ejemplos de ese contenido. Por ejemplo, puede perfeccionarlo en acuarelas o fotos de automóviles, y será más capaz de reproducir cualquiera de esas cosas.
Lo que hicieron Seth Forsgren y Hayk Martiros para su proyecto amateur Riffusion fue refinar la dispersión estable en los espectrogramas.
“Hayk y yo tocamos juntos en una pequeña banda, y comenzamos el proyecto simplemente porque amamos la música y no estábamos seguros de si sería posible que Stable Diffusion creara una imagen de espectrograma con suficiente fidelidad para convertirla en audio”. Forsgren le dijo a TechCrunch. “Cada paso en el camino, nos ha impresionado más y más con lo que es posible, y una idea lleva a la siguiente”.
¿Qué son los espectrogramas, preguntas? Son representaciones visuales de audio que muestran la amplitud de diferentes frecuencias a lo largo del tiempo. Probablemente haya visto formas de onda, que muestran el volumen a lo largo del tiempo y hacen que el audio parezca una serie de colinas y valles; imagina si en lugar del volumen total, mostrara el volumen de cada frecuencia, de bajo a alto.
Aquí está parte de la que hice de una canción (“La radio de Marconi” de Secret Machinessi te lo preguntas):
Puede ver cómo se vuelve más fuerte en todas las frecuencias a medida que se desarrolla la canción, e incluso puede detectar notas e instrumentos individuales si sabe qué buscar. El proceso no es intrínsecamente perfecto ni sin pérdidas, pero es una representación precisa y sistemática del sonido. Y puede volver a convertirlo en sonido realizando el mismo proceso a la inversa.
Forsgren y Martiros hicieron espectrogramas de un montón de música y etiquetaron las imágenes resultantes con términos relevantes, como “guitarra de blues”, “piano de jazz”, “afrobeat”, cosas así. Alimentar al modelo con esta colección le dio una buena idea de cómo “sonaban” ciertos sonidos y cómo podía recrearlos o combinarlos.
Hoy temprano escribí sobre AI Drake y cómo la IA se está utilizando para crear nuevos mashups virales de canciones de artistas populares. Un caso de uso de la IA que podría atraer a algunos críticos que piensan que la IA infringe los derechos de autor del artista. Por otro lado, aunque Riffusion también usa IA para generar música, lo hace de una manera mucho más genial y no intenta capitalizar la popularidad de los éxitos para volverse viral. Es un proyecto puramente apasionante, creado por curiosidad, solo para ver qué era tecnológicamente posible.
Lo que nos lleva al otro lado de la IA. El lado emocionante. Todas las nuevas tecnologías a las que esto va a conducir. Expansión del adyacente posible en todas las direcciones. Nos hace menos creativos en algunos aspectos porque se nos pide que produzcamos menos contenido. Pero más creativos en otros aspectos, ya que modificamos y jugamos con nuestras nuevas herramientas de maneras nuevas y emocionantes, inventando nuevas aplicaciones y casos de uso en el camino.
¿Es Riffusion la mejor idea de todos los tiempos?
Así:
Me gusta cargar…