N.º 2814: Mes de la IA: susurro


Otra creación de OpenAI, Susurro es un programa de transcripción de voz de código abierto que esencialmente le da voz a la IA. Y podría marcar un cambio radical en la forma en que usamos la IA.

el neoyorquino lo explica mejor:

“Un día, a fines de diciembre, descargué un programa llamado Whisper.cpp en mi computadora portátil, con la esperanza de usarlo para transcribir una entrevista que había hecho. Le envié un archivo de audio, y cada pocos segundos producía una o dos líneas extrañamente precisas de transcripción, escribiendo exactamente lo que se decía con una precisión que nunca antes había visto. A medida que se acumulaban las líneas, podía sentir que mi computadora se calentaba. Fue una de las pocas veces en la memoria reciente en que mi computadora portátil realmente calculó algo complicado: la mayoría de las veces solo la estaba usando para navegar por la web, mirar televisión y escribir. Ahora estaba ejecutando AI de última generación

Aunque es uno de los programas más sofisticados que he ejecutado en mi computadora portátil, Whisper.cpp también es uno de los más simples. Si mostrara su código fuente a los investigadores de IA en los primeros días del reconocimiento de voz, podrían reírse de incredulidad o llorar; sería como decirle a un físico nuclear que el proceso de fusión fría se puede escribir en una servilleta. Whisper.cpp es inteligencia destilada. Es raro que el software moderno casi no tenga dependencias; en otras palabras, funciona sin la ayuda de otros programas. En cambio, son diez mil líneas de código autónomo, la mayoría de las cuales hace poco más que aritmética bastante complicada. Fue escrito en cinco días por Georgi Gerganov, un programador búlgaro que, por su propia admisión, no sabe casi nada sobre reconocimiento de voz. Gerganov lo adaptó de un programa llamado Whisper, lanzado en septiembre por OpenAI, la misma organización detrás de ChatGPT y dall-e. Whisper transcribe el habla en más de noventa idiomas. En algunos de ellos, el software es capaz de un rendimiento sobrehumano, es decir, en realidad puede analizar lo que alguien dice mejor que un humano.

Lo que es tan inusual sobre Whisper es que OpenAI lo abrió, liberando no solo el código sino también una descripción detallada de su arquitectura. También incluyeron los “pesos del modelo” de suma importancia: un archivo gigante de números que especifican la fuerza sináptica de cada conexión en la red neuronal del software. Al hacerlo, OpenAI hizo posible que cualquiera, incluido un aficionado como Gerganov, modificara el programa. Gerganov convirtió Whisper a C++, un lenguaje de programación ampliamente compatible, para que sea fácil de descargar y ejecutar en prácticamente cualquier dispositivo. Suena como un detalle logístico, pero en realidad es la marca de un cambio radical. Hasta hace poco, las IA de renombre mundial como Whisper eran dominio exclusivo de las grandes empresas tecnológicas que las desarrollaron. Existían detrás de escena, potenciando sutilmente los resultados de búsqueda, las recomendaciones, los asistentes de chat y más. Si se permitía que los extranjeros los usaran directamente, su uso estaba medido y controlado.

Ha habido algunas otras IA de código abierto en los últimos años, pero la mayoría de ellas han sido desarrolladas mediante proyectos patentados de ingeniería inversa. LeelaZero, un motor de ajedrez, es una versión colaborativa de AlphaZero de DeepMind, el mejor jugador de computadora del mundo; dado que DeepMind no publicó los pesos modelo de AlphaZero, LeelaZero tuvo que ser entrenado desde cero por usuarios individuales, una estrategia que solo era factible porque el programa podía aprender jugando al ajedrez contra sí mismo. De manera similar, Stable Diffusion, que evoca imágenes a partir de descripciones, es un clon extremadamente popular de dall-e de OpenAI e Imagen de Google, pero entrenado con datos disponibles públicamente. Whisper es quizás la primera IA de esta clase que simplemente se ofreció al público. En la era del software basado en la nube, donde todos nuestros programas básicamente se alquilan a las empresas que los fabrican, me parece algo electrizante que ahora que descargué Whisper.cpp, nadie pueda quitármelo. ni siquiera Gerganov. Su pequeño programa transformó mi computadora portátil de un dispositivo que accede a la IA en una especie de máquina inteligente en sí misma.

Se ve impresionante. Tanto es así que en lugar de susurrar, quizás tengamos que gritar desde la cima de la montaña para que todos sepan lo increíble que es.

¿Es Whisper la mejor idea de todos los tiempos?

Así:

Me gusta cargar…

Contenido original en Inglés


Leave a Reply

Your email address will not be published. Required fields are marked *