
Los asistentes de voz y chatbots pueden ser manipulados a través de señales de audio que resultan imperceptibles para el oído humano. Un grupo de especialistas en seguridad informática ha evidenciado que este tipo de sonidos, ocultos en pódcast, videos de YouTube o llamadas de voz, son capaces de activar acciones no autorizadas en los sistemas de inteligencia artificial basados en audio.
La técnica, denominada AudioHijack, representa una amenaza que pone de manifiesto nuevas vulnerabilidades en la tecnología de asistentes virtuales y plataformas de IA conversacional.
PUBLICIDAD
Manipulación de asistentes de voz mediante señales de audio ocultas
Investigadores de la Universidad de Zhejiang, la Universidad Nacional de Singapur y la Universidad Tecnológica de Nanyang presentaron un método innovador que aprovecha señales ocultas en archivos de audio convencionales.

Estas señales, aunque no pueden ser detectadas por el oído humano, tienen la capacidad de controlar modelos de lenguaje de audio y provocar conductas definidas por quien diseña el ataque.
PUBLICIDAD
La técnica, bautizada como AudioHijack, muestra que bastan apenas 30 minutos de entrenamiento para crear una señal utilizable en cualquier momento y contexto. Según Meng Chen, candidato a doctor en la Universidad de Zhejiang, la independencia contextual de la señal permite que el atacante elija cuándo y cómo influir sobre el modelo objetivo, sin importar la interacción legítima del usuario.
Este hallazgo, presentado en el Simposio de Seguridad y Privacidad del IEEE en San Francisco, revela que la amenaza es transversal a distintos tipos de archivos y plataformas.
PUBLICIDAD

La manipulación puede ocurrir a través del consumo cotidiano de contenidos, como escuchar un pódcast o participar en una videollamada, incrementando las posibilidades de que asistentes de voz o chatbots ejecuten órdenes sin consentimiento.
Vulnerabilidades en modelos de IA de audio y plataformas comerciales
Durante las pruebas, el equipo de investigación evaluó la técnica en 13 modelos abiertos de inteligencia artificial de audio, incluyendo Qwen2-Audio, GLM-4-Voice, Phi-4-Multimodal y Kimi-Audio. Los resultados arrojaron tasas de éxito elevadas, que oscilaron entre el 79% y el 96%. Esto sugiere que la mayoría de los sistemas actuales no están preparados para detectar ni bloquear este tipo de ataques.
PUBLICIDAD
Lo preocupante es que las agresiones desarrolladas para plataformas de código abierto pueden trasladarse con facilidad a sistemas comerciales. Empresas como Microsoft Azure y Mistral AI, que basan parte de sus productos en estos modelos públicos, ven comprometida la seguridad de sus soluciones empresariales.

La arquitectura compartida entre herramientas de uso abierto y comercial facilita que una vulnerabilidad descubierta en un entorno se replique en otros, amplificando el riesgo.
PUBLICIDAD
A diferencia de ataques anteriores dirigidos principalmente a engañar sistemas de reconocimiento de voz simples, AudioHijack explota las capas profundas de razonamiento presentes en los modelos modernos.
Estos sistemas pueden realizar acciones complejas, como navegar en internet, descargar archivos o enviar mensajes en nombre del usuario, lo que multiplica las consecuencias de una manipulación exitosa.
PUBLICIDAD

Limitaciones de las defensas actuales ante ataques por audio imperceptible
Las estrategias defensivas implementadas hasta el momento, como la verificación de intenciones y el endurecimiento de las instrucciones de texto, muestran una eficacia limitada frente a AudioHijack.
Según los investigadores, estas medidas apenas reducen la efectividad del ataque en un 7%. El motivo radica en la dificultad que tienen los modelos para distinguir entre una orden genuina y una instrucción maliciosa camuflada en el audio.
PUBLICIDAD
Chen sostiene que “estas defensas de un solo punto luchan por resistir nuestro ataque porque descubrimos que es muy difícil para estos modelos distinguir la intención normal del usuario de nuestro ataque”. La complejidad de la amenaza obliga a repensar los enfoques de seguridad, ya que los mecanismos actuales no logran frenar la manipulación a nivel de modelo.

Desde Microsoft se ha señalado que las implementaciones comerciales suelen incorporar capas adicionales de protección más allá del modelo de base. Sin embargo, la tendencia hacia asistentes de voz cada vez más autónomos, con facultades para modificar agendas o enviar información corporativa, transforma el perfil de riesgo.
PUBLICIDAD
Las arquitecturas de seguridad vigentes aún no logran contener este nuevo tipo de ataque, lo que deja abiertas preguntas sobre la capacidad real de protección ante amenazas basadas en audio invisible.
PUBLICIDAD
PUBLICIDAD
Últimas Noticias
Blue Origin, empresa de Jeff Bezos, comenzará este año la construcción de una base en la Luna
El proyecto lunar estadounidense busca crear bases habitables alimentadas con energía solar y nuclear desde 2029

Cuatro consejos para evitar que el cargador de tu celular se caliente demasiado
El uso constante de la carga rápida puede elevar la temperatura y acelerar el desgaste de la batería

Cómo funciona el sistema con IA que logra hasta un 99% de precisión en diagnosticar enfermedades cardíacas
El modelo CMR-CLIP, desarrollado por la Cleveland Clinic y la Universidad Carnegie Mellon, integra imágenes del corazón con informes clínicos y supera en más de un 35% a los modelos previos en diversas pruebas

Exempleado de Meta describe los despidos internos como un episodio de ‘El juego del calamar’
El testimonio surgió tras la notificación abrupta de la desvinculación de miles de empleados, mientras la empresa redirige su estrategia hacia la IA

Este robot ya entrena fútbol, celebra como Griezmann y quiere ir a la Copa Mundial FIFA 2026
El dispositivo cuenta con capacidad de hacer amagues y diferentes rutinas de entrenamiento




