La inteligencia artificial tiene nueva era: esta es la versión para generar imágenes, subtítulos y más

Guardar

Microchip con diseño inspirado en el cerebro, representando la intersección de la inteligencia artificial con la biología humana. Un avance tecnológico que muestra la integración de los circuitos electrónicos en el ámbito de la computación y la informática. (Imagen ilustrativa Infobae)

La inteligencia artificial multimodal supera a los chatbots actuales en capacidades y aplicaciones. (Imagen ilustrativa Infobae)

Un nuevo tipo de inteligencia artificial mucho más avanzada está empezando a ganar terreno debido a su capacidad para lograr mejores resultados y aplicaciones al poder procesar varios tipos de datos simultáneamente, como es el caso de texto, imágenes, audio o incluso de los sensores que incorporan los dispositivos como los celulares.

Incluso se podría decir que esta renovada IA amplia considerablemente su campo de aplicación tanto en el ámbito de uso cotidiano por los consumidores, como en el desarrollo industrial y el aprendizaje automático.

Este avance ha sido bautizado como inteligencia artificial multimodal, una palabra que se refiere literalmente al uso de múltiples modos y que en este contexto significa la utilización de diferentes fuentes de entrada, como un audio, para entregar un resultado que puede ser una imagen.

De hecho, en el día a día su aplicación se está volviendo más perceptible con las grandes mejoras incorporadas a los actuales asistentes virtuales y dispositivos móviles, de donde esta nueva tecnología recopila los datos procedentes de cámaras, micrófonos y diversos sensores; con el objetivo de ofrecer respuestas más acertadas gracias al contexto adicional que provee la multitud de datos recopilados.

Mientras que la presencia combinada de funciones de geolocalización y conectividad amplía aún más esta ventaja contextual.

Inteligencia Artificial trabajo automatización - visualesIA

Este avance conduce a interpretaciones y respuestas más complejas y precisas. (Imagen ilustrativa Infobae)

Otra de las posibilidades prácticas de este tipo de inteligencia artificial es que permite la generación de imágenes a partir de instrucciones textuales y auditivas.

Por ejemplo, hay modelos capaces de producir los subtítulos para videos basándose no solo en el audio, sino también en el contexto visual, sincronizando mejor el texto con la acción en pantalla.

Entre tanto, en la industria, el potencial es amplio, permitiendo pronosticar el mantenimiento de equipos a través del análisis de datos como temperatura, sonido, y aspecto visual, en conjunción con parámetros básicos de antigüedad y durabilidad del componente en cuestión.

Qué es la inteligencia artificial multimodal

Especialista en informática trabajando con una iMac, aplicando inteligencia artificial en tareas de diseño y programación. La fotografía captura un ambiente de trabajo moderno, donde el uso de tecnología de punta en computación y software destaca su habilidad profesional. (Imagen ilustrativa Infobae)

La Inteligencia Artificial multimodal emerge como una revolución que integra texto, imagen, audio y datos sensoriales. (Imagen ilustrativa Infobae)

Para entender qué es la inteligencia artificial multimodal, primero es necesario comprender que son una evolución de los modelos de IA catalogados como unimodales. Un ejemplo son los populares chatbots que tuvieron su gran irrupción en 2023 y están basados en texto.

El más conocido de todos es ChatGPT, un desarrollo que ha significado toda una revolución, pero que sería apenas la punta del iceberg de todo el potencial que tiene la IA,

De hecho, figuras tan relevantes como Sam Altman, CEO de Open IA, compañía que creó este modelo, ya considera que los sistemas de “IA actuales serán los más estúpidos que existirán”. Advirtiendo que aun los mayores avances están por llegar.

Como es el caso de inteligencia artificial multimodal, que mejora significativamente la interacción y el entrenamiento de estos modelos, debido a que puede combinar descripciones textuales con archivos de audio para generar imágenes representativas, o usar conjuntos de datos de imagen y audio para asociar sonidos a visuales específicos.

Además, este tipo de tecnología es capaz de priorizar diferentes modos de entrada para entregar resultados ponderados según las necesidades previstas.

Modelos destacados de IA multimodal

Circuito integrado de procesador con luces que representan el funcionamiento de la inteligencia artificial. Elemento central en el desarrollo de computadoras y la informática actual. (Imagen ilustrativa Infobae)

Empresas como OpenAI y Google han presentado modelos como GPT-4 y Gemini que ya están disponibles para desarrolladores y el público en general. (Imagen ilustrativa Infobae)

Google Gemini y GPT-4 de OpenAI (o GPT-4V, con la V representando visión) son ejemplos emblemáticos de modelos de IA multimodal.

Ambas herramientas ya son accesibles para desarrolladores y público, y en el caso del modelo desarrollado por la compañía dirigida por Sam Altman, se encuentra disponible a través de Bing Chat para usuarios que buscan experimentar con la carga de imágenes y consultas combinadas de texto e imagen. Además, es una herramienta gratuita para los suscriptores de ChatGPT Plus.

Respecto a Gemini, se debe resaltar que requiere habilidades en Python para su configuración, aunque promete una experiencia diversa al estar entrenado en audio, imágenes, videos, código y texto en múltiples idiomas.

También existen otros modelos como Runway Gen-2, que produce videos a partir de indicaciones de texto, y Meta ImageBind, que combina texto, imagen y audio con datos adicionales como mapas de calor y de profundidad.

Y con la constante evolución de la Inteligencia Artificial, otras compañías líderes como Apple, Meta, Micosoft y Samsung buscan incorporar estos desarrollos a los dispositivos que fabrican y los servicios cotidianos que ofrecen.

Últimas Noticias

Qué iPhone elegir en 2026: recomendaciones para acertar en tu próxima compra

Apple ofrece alternativas que cubren desde quienes buscan lo más avanzado hasta quienes priorizan un precio contenido sin renunciar a la experiencia iOS

La inteligencia artificial tiene nueva era: esta es la versión para generar imágenes, subtítulos y más

Conocida como inteligencia artificial multimodal, es capaz de ofrecer respuestas más precisas al interpretar datos de textos, imágenes, audio e incluso en del entorno en el que operan

Qué es la inteligencia artificial multimodal

Modelos destacados de IA multimodal

Últimas Noticias

Qué iPhone elegir en 2026: recomendaciones para acertar en tu próxima compra

Apple ofrece alternativas que cubren desde quienes buscan lo más avanzado hasta quienes priorizan un precio contenido sin renunciar a la experiencia iOS

120 frases para enviar por WhatsApp el Día del Padre a tu esposo o novio

La aplicación permite enviar mensajes cortos acompañados con fotos, emojis y stickers que evidencien la importancia en la familia de la paternidad

Por qué las personas usan audífonos en conciertos: Apple los ayuda con esta función

Muchos creen que están escuchando otra cosa, pero en realidad están cuidado su salud

Ver partidos del Mundial 2026 desde la app de FútbolLibre es peligroso: puede traer sanciones legales y virus

Varios fanáticos recurren a plataformas piratas para ver la fase de grupos del Mundial, pero su uso implica exponer datos privados a extraños

Graba mejores videos con tu celular enfocando al centro, manteniéndote estable y más trucos

Para obtener los mejores resultados no es necesario hacer ajustes complejos

DEPORTES

Uruguay vs Cabo Verde, EN VIVO, por el Mundial 2026: hora, TV, formaciones y todo lo que hay que saber

“¡Dejá de vender humo!”: las lapidarias críticas de una ex figura de Ecuador a Beccacece tras el empate con Curazao en el Mundial

Un campeón del mundo se quedó dormido en mitad del partido del triunfo de España y desató las burlas

Tras la conquista de Francisco Cerúndolo en Queen’s, así quedó la lista histórica de campeones argentinos en el ATP Tour

Infancia, presión y victoria: el camino de Carlos Sainz para escribir su propia historia en la Fórmula 1

TELESHOW

El conmovedor posteo de Delfina Pignatiello a su expareja Lucas Vignale tras su muerte: “El milagro de coincidir”

Facundo Arana habló de su relación con María Susini en medio de rumores de reconciliación: “Reencauzar todo”

El sentido mensaje de Araceli González en su cumpleaños tras su reconciliación con Adrián Suar: “Estoy feliz”

Rodetes, guiño a la comodidad y colores fuertes: así fue el look de Juana Viale para su programa

La sensible reflexión de Moria Casán sobre el Día del Padre: “Me felicito”

INFOBAE AMÉRICA

Una explosión sacudió el principal complejo gasífero de Qatar en medio de las negociaciones entre Estados Unidos e Irán

Trump volvió a cuestionar a Meloni por su falta de apoyo frente a la amenaza nuclear iraní: “No están ahí para defendernos”

Ai Weiwei recreará su detención en China en una performance de 24 horas

Obras Públicas entrega vías clave que conectan Monte Plata, Cevicos y Rincón Claro, impulsando el desarrollo vial en República Dominicana

Autoridades de salud aplican más de 150 mil dosis para prevenir casos de sarampión en Panamá

Qué es la inteligencia artificial multimodal

Modelos destacados de IA multimodal

Temas Relacionados

Últimas Noticias

Qué iPhone elegir en 2026: recomendaciones para acertar en tu próxima compra

Apple ofrece alternativas que cubren desde quienes buscan lo más avanzado hasta quienes priorizan un precio contenido sin renunciar a la experiencia iOS

120 frases para enviar por WhatsApp el Día del Padre a tu esposo o novio

La aplicación permite enviar mensajes cortos acompañados con fotos, emojis y stickers que evidencien la importancia en la familia de la paternidad

Por qué las personas usan audífonos en conciertos: Apple los ayuda con esta función

Muchos creen que están escuchando otra cosa, pero en realidad están cuidado su salud

Ver partidos del Mundial 2026 desde la app de FútbolLibre es peligroso: puede traer sanciones legales y virus

Varios fanáticos recurren a plataformas piratas para ver la fase de grupos del Mundial, pero su uso implica exponer datos privados a extraños

Graba mejores videos con tu celular enfocando al centro, manteniéndote estable y más trucos

Para obtener los mejores resultados no es necesario hacer ajustes complejos

DEPORTES

Uruguay vs Cabo Verde, EN VIVO, por el Mundial 2026: hora, TV, formaciones y todo lo que hay que saber

“¡Dejá de vender humo!”: las lapidarias críticas de una ex figura de Ecuador a Beccacece tras el empate con Curazao en el Mundial

Un campeón del mundo se quedó dormido en mitad del partido del triunfo de España y desató las burlas

Tras la conquista de Francisco Cerúndolo en Queen’s, así quedó la lista histórica de campeones argentinos en el ATP Tour

Infancia, presión y victoria: el camino de Carlos Sainz para escribir su propia historia en la Fórmula 1

TELESHOW

El conmovedor posteo de Delfina Pignatiello a su expareja Lucas Vignale tras su muerte: “El milagro de coincidir”

Facundo Arana habló de su relación con María Susini en medio de rumores de reconciliación: “Reencauzar todo”

El sentido mensaje de Araceli González en su cumpleaños tras su reconciliación con Adrián Suar: “Estoy feliz”

Rodetes, guiño a la comodidad y colores fuertes: así fue el look de Juana Viale para su programa

La sensible reflexión de Moria Casán sobre el Día del Padre: “Me felicito”

INFOBAE AMÉRICA

Una explosión sacudió el principal complejo gasífero de Qatar en medio de las negociaciones entre Estados Unidos e Irán

Trump volvió a cuestionar a Meloni por su falta de apoyo frente a la amenaza nuclear iraní: “No están ahí para defendernos”

Ai Weiwei recreará su detención en China en una performance de 24 horas

Obras Públicas entrega vías clave que conectan Monte Plata, Cevicos y Rincón Claro, impulsando el desarrollo vial en República Dominicana

Autoridades de salud aplican más de 150 mil dosis para prevenir casos de sarampión en Panamá