
Un nuevo tipo de inteligencia artificial mucho más avanzada está empezando a ganar terreno debido a su capacidad para lograr mejores resultados y aplicaciones al poder procesar varios tipos de datos simultáneamente, como es el caso de texto, imágenes, audio o incluso de los sensores que incorporan los dispositivos como los celulares.
Incluso se podría decir que esta renovada IA amplia considerablemente su campo de aplicación tanto en el ámbito de uso cotidiano por los consumidores, como en el desarrollo industrial y el aprendizaje automático.
Este avance ha sido bautizado como inteligencia artificial multimodal, una palabra que se refiere literalmente al uso de múltiples modos y que en este contexto significa la utilización de diferentes fuentes de entrada, como un audio, para entregar un resultado que puede ser una imagen.
De hecho, en el día a día su aplicación se está volviendo más perceptible con las grandes mejoras incorporadas a los actuales asistentes virtuales y dispositivos móviles, de donde esta nueva tecnología recopila los datos procedentes de cámaras, micrófonos y diversos sensores; con el objetivo de ofrecer respuestas más acertadas gracias al contexto adicional que provee la multitud de datos recopilados.
Mientras que la presencia combinada de funciones de geolocalización y conectividad amplía aún más esta ventaja contextual.

Otra de las posibilidades prácticas de este tipo de inteligencia artificial es que permite la generación de imágenes a partir de instrucciones textuales y auditivas.
Por ejemplo, hay modelos capaces de producir los subtítulos para videos basándose no solo en el audio, sino también en el contexto visual, sincronizando mejor el texto con la acción en pantalla.
Entre tanto, en la industria, el potencial es amplio, permitiendo pronosticar el mantenimiento de equipos a través del análisis de datos como temperatura, sonido, y aspecto visual, en conjunción con parámetros básicos de antigüedad y durabilidad del componente en cuestión.
Qué es la inteligencia artificial multimodal

Para entender qué es la inteligencia artificial multimodal, primero es necesario comprender que son una evolución de los modelos de IA catalogados como unimodales. Un ejemplo son los populares chatbots que tuvieron su gran irrupción en 2023 y están basados en texto.
El más conocido de todos es ChatGPT, un desarrollo que ha significado toda una revolución, pero que sería apenas la punta del iceberg de todo el potencial que tiene la IA,
De hecho, figuras tan relevantes como Sam Altman, CEO de Open IA, compañía que creó este modelo, ya considera que los sistemas de “IA actuales serán los más estúpidos que existirán”. Advirtiendo que aun los mayores avances están por llegar.
Como es el caso de inteligencia artificial multimodal, que mejora significativamente la interacción y el entrenamiento de estos modelos, debido a que puede combinar descripciones textuales con archivos de audio para generar imágenes representativas, o usar conjuntos de datos de imagen y audio para asociar sonidos a visuales específicos.
Además, este tipo de tecnología es capaz de priorizar diferentes modos de entrada para entregar resultados ponderados según las necesidades previstas.
Modelos destacados de IA multimodal

Google Gemini y GPT-4 de OpenAI (o GPT-4V, con la V representando visión) son ejemplos emblemáticos de modelos de IA multimodal.
Ambas herramientas ya son accesibles para desarrolladores y público, y en el caso del modelo desarrollado por la compañía dirigida por Sam Altman, se encuentra disponible a través de Bing Chat para usuarios que buscan experimentar con la carga de imágenes y consultas combinadas de texto e imagen. Además, es una herramienta gratuita para los suscriptores de ChatGPT Plus.
Respecto a Gemini, se debe resaltar que requiere habilidades en Python para su configuración, aunque promete una experiencia diversa al estar entrenado en audio, imágenes, videos, código y texto en múltiples idiomas.
También existen otros modelos como Runway Gen-2, que produce videos a partir de indicaciones de texto, y Meta ImageBind, que combina texto, imagen y audio con datos adicionales como mapas de calor y de profundidad.
Y con la constante evolución de la Inteligencia Artificial, otras compañías líderes como Apple, Meta, Micosoft y Samsung buscan incorporar estos desarrollos a los dispositivos que fabrican y los servicios cotidianos que ofrecen.
Últimas Noticias
Así es el robot autónomo más pequeño del mundo: un grano de sal es más grande que él
Cada microrobot cuesta menos de un centavo, lo que facilita la fabricación y su potencial aplicación en medicina

Grandes líderes como Jeff Bezos siempre hablan de último en una reunión: por qué
El empresario ha seguido esta regla al dirigir empresas como Amazon o Blue Origin. Además, estudios demuestran que las primeras voces y el peso de la autoridad pueden sesgar las discusiones técnicas
Stephen Hawking recomendó la mejor actitud que debes tener ante cualquier problema: lo resolverá todo
El físico británico defendía que, por difícil que sea la vida, siempre existe una acción posible y una oportunidad de lograr algo, inspirando a millones a persistir ante cualquier adversidad

Epic Games Store regala cinco experiencias imperdibles: descarga gratis los mejores juegos para PC de enero
Hidden Folks, Totally Reliable Delivery Service y Kamaeru son parte de una oferta que apuesta por la diversidad de géneros y la inclusión de propuestas independientes premiadas

Microsoft identificó las profesiones más vulnerables al avance de la inteligencia artificial
Un análisis de la compañía revela que actividades centradas en la gestión de conocimiento y datos se encuentran entre las más propensas a ser transformadas por algoritmos avanzados


