N.º 2795 – Mes de la IA: ImageBind


N.º 2795 – Mes de la IA: ImageBind

Hasta ahora, todos estos avances de IA y nuevos productos, desde ChatGPT y Claude hasta Stable Diffusion y Midjourney, han sido alucinantes. Explotando en el escenario con el potencial de transformar la sociedad de la noche a la mañana. Pero la búsqueda ImageBind de Meta es quizás la más impresionante de todas. Con su capacidad para vincular seis fuentes de información separadas.

El borde lo explica mejor:

“Meta anunció un nuevo modelo de IA de código abierto que conecta múltiples flujos de datos, incluidas lecturas de texto, audio, visuales, temperatura y movimiento.

El modelo es solo un proyecto de investigación en este punto, sin consumidores inmediatos ni aplicaciones prácticas, pero apunta a un futuro de sistemas generativos de IA capaces de crear experiencias inmersivas y multisensoriales y muestra que Meta continúa compartiendo la investigación de IA a la vez. cuando rivales como OpenAI y Google se han vuelto cada vez más reservados.

El concepto básico de la búsqueda es vincular múltiples tipos de datos en un solo índice multidimensional (o “espacio de integración”, para usar el lenguaje de la IA). Esta idea puede parecer un poco abstracta, pero es este mismo concepto el que sustenta el reciente auge de la IA generativa.

Por ejemplo, los generadores de imágenes de IA como DALL-E, Stable Diffusion y Midjourney dependen de sistemas que vinculan texto e imágenes durante la fase de entrenamiento. Buscan patrones en los datos visuales mientras vinculan esta información a las descripciones de las imágenes. Esto es lo que luego permite que estos sistemas generen imágenes que siguen las entradas de texto de los usuarios. Lo mismo ocurre con muchas herramientas de IA que generan video o audio de la misma manera.

Meta dice que su modelo, ImageBind, es el primero en combinar seis tipos de datos en un único espacio de integración. Los seis tipos de datos incluidos en el modelo son: visuales (en forma de imagen y video); térmica (imágenes infrarrojas); texto; audio; información de profundidad; y, lo más intrigante de todo, las lecturas de movimiento generadas por una unidad de medición inercial, o IMU. (Las IMU se encuentran en teléfonos y relojes inteligentes, donde se usan para una variedad de tareas, desde cambiar un teléfono de paisaje a retrato hasta distinguir entre diferentes tipos de actividad física).

La idea es que los futuros sistemas de IA puedan hacer una referencia cruzada de estos datos de la misma manera que lo hacen los sistemas de IA actuales para las entradas de texto. Imagine, por ejemplo, un dispositivo de realidad virtual futurista que no solo genera entradas de audio y visuales, sino también su entorno y sus movimientos en un escenario físico. Podrías pedirle que simule un largo viaje por mar, y te colocaría no solo en un barco con el sonido de las olas de fondo, sino también el balanceo de la cubierta bajo tus pies y la brisa fresca del aire marino. .

En una publicación de blog, Meta señala que se podrían agregar otros flujos de entrada sensorial a modelos futuros, incluidas “señales cerebrales táctiles, del habla, olfativas y fMRI”. También afirma que la investigación “acerca a las máquinas a la capacidad de los humanos para aprender de forma simultánea, holística y directa a partir de muchas formas diferentes de información”.

Es lógico que esta investigación pertenezca a Meta, anteriormente Facebook, ya que están tan inextricablemente vinculados a Metaverse, que incluso cambiaron el nombre de toda la empresa en torno a la idea. Y ahora, con ImageBind, tienen un programa que puede ayudarlos a crear experiencias verdaderamente inmersivas y hacer realidad su visión de conectar a todos virtualmente.

¿Es ImageBind la mejor idea de todos los tiempos?

Así:

Me gusta cargar…

Contenido original en Inglés


Leave a Reply

Your email address will not be published. Required fields are marked *