
La opción de que agentes digitales puedan cantar o identificar emociones solo ocupaba un lugar en el desarrollo avanzado de la inteligencia artificial hasta hace poco. Ahora, estos avances se encuentran en el centro de la estrategia global de Xiaomi, que presentó una nueva generación de modelos de inteligencia artificial orientados a potenciar a asistentes y agentes digitales en distintos entornos. Según informó el medio, Xiaomi anunció el lanzamiento global de tres modelos de IA bajo su plataforma MiMo, una apuesta que busca extender el uso de la inteligencia artificial a actividades laborales, colaborativas y de la vida diaria.
La compañía detalló que los modelos MiMo-V2-Pro, MiMo-V2-Omni y MiMo-V2-TTS están enfocados en tareas específicas que requieren desde la gestión de flujos de trabajo complejos hasta la interacción fluida por voz y la comprensión multimodal de información. De acuerdo con la información publicada, estos desarrollos tienen el objetivo de proporcionar a los agentes digitales funciones avanzadas que les permitan ejecutar tareas reales, orquestar procesos y comunicarse de forma natural y expresiva, respondiendo no solo a comandos, sino anticipando necesidades en tiempo real.
El modelo MiMo-V2-Pro se presenta como una herramienta destinada a la coordinación eficiente de flujos de trabajo entre personas y agentes digitales. Según Xiaomi, este modelo se apoya en una arquitectura que incluye un billón de parámetros, de los cuales 42.000 millones están activos, permitiendo un alto grado de automatización combinado con intervención humana en una proporción de siete a uno. Este diseño busca asegurar que los agentes puedan finalizar tareas en entornos productivos y adaptarse a situaciones cambiantes basándose tanto en la autonomía algorítmica como en la supervisión humana. Además, incorpora un motor basado en el marco OpenClaw y soporta ventanas de contexto de hasta un millón de tokens, facilitando así el manejo eficiente de grandes cantidades de información y tareas de alta intensidad operativa.
En el caso del modelo MiMo-V2-Omni, Xiaomi reportó que se trata de una solución capaz de gestionar información simultáneamente en varios formatos, incluyendo imagen, video y audio. Este modelo puede percibir, analizar y razonar a partir de señales visuales y sonoras, lo que permite que los agentes trabajen en situaciones donde la interacción con múltiples usuarios y fuentes de datos es necesaria. El medio consignó que MiMo-V2-Omni diferencia y separa sonidos ambientales de voces humanas en espacios concurridos, realizando esta función durante periodos extendidos de hasta diez horas consecutivas. También puede interpretar gráficos complejos y anticipar acciones a partir de las dinámicas observadas en grabaciones de video.
Por su parte, MiMo-V2-TTS introduce capacidades avanzadas para la interacción verbal. Este modelo, según detalló Xiaomi, no se limita a la conversión tradicional de texto a voz, sino que extiende las posibilidades de los agentes digitales para comunicarse de manera natural, introduciendo variables de tono y entonación que se adaptan al contexto emocional de la conversación. Entre las características destacadas, la compañía remarcó la habilidad del sistema para ajustar las respuestas a distintos niveles de formalidad y estilo, lo que permite conversaciones naturales y en tiempo real. El sistema reconoce e interpreta elementos paralingüísticos como suspiros, pausas, risas y muletillas, incluso reflejando estas inflexiones en los textos mediante el uso de mayúsculas, repetición de letras y signos de puntuación.
En relación al entrenamiento del modelo MiMo-V2-TTS, Xiaomi indicó que se ha realizado a partir de un conjunto de datos superior a las 100 millones de horas de grabaciones de voz. Este aprendizaje se optimizó con técnicas de refuerzo multidimensional, lo que permitió dotar a los agentes de una expresividad ajustada a cualquier escenario de comunicación. Además de las interacciones habladas, este modelo facilita la posibilidad de que los agentes digitales canten, destacándose como la única API de síntesis de voz disponible a nivel comercial con capacidad nativa para producir tanto voz hablada como cantada sin requerir modos separados ni arquitecturas distintas. Según Xiaomi, "la misma arquitectura que transmite una confesión susurrada puede interpretar un estribillo pop a todo volumen".
La aspiración de Xiaomi con la plataforma MiMo es facilitar que la inteligencia artificial sea accesible para usuarios de manera sencilla, integrando a personas y máquinas en una colaboración sin fricciones. El medio reportó que esta estrategia busca aplicar los nuevos desarrollos tanto en la mejora de la productividad empresarial como en situaciones cotidianas, abriendo el abanico de capacidades que los agentes digitales pueden desempeñar.
Así, con el conjunto de modelos presentado, la compañía apunta a cubrir el espectro actual de necesidades en el ámbito de los asistentes digitales, desde la gestión avanzada de tareas y la comprensión compleja de datos audiovisuales, hasta la interacción humana natural basada en el habla y la interpretación contextual de la comunicación. Según publicó el medio, Xiaomi apuesta a que la evolución de estas soluciones amplíe la adopción de la inteligencia artificial en el día a día de los usuarios y facilite la colaboración efectiva entre humanos y máquinas.
Últimas Noticias
La UE pide una moratoria de los ataques a instalaciones energéticas y de agua en Irán
La nominación del secretario de Seguridad Nacional propuesto por Trump avanza en el Senado
La subida del gas natural se modera hasta el 17 %, por debajo de los 64 euros
Oxfám alerta de que la crisis humanitaria en Oriente Medio afecta sobre todo a los niños
Japón rechaza un informe de la Inteligencia de EEUU que apunta a un cambio en su postura sobre Taiwán
El gobierno de Tokio desmiente versiones estadounidenses sobre un supuesto giro en sus criterios en torno a un posible conflicto en la isla, subrayando que no hay modificaciones sustanciales en la línea oficial respecto a la situación asiática
