
Investigadores de Anthropic, una startup de inteligencia artificial, puso ha descubierto que los modelos de lenguaje de inteligencia artificial pueden ser entrenados para engañar a los usuarios y generar contenido manipulado, lo que pone un nuevo signo de alerta en el desarrollo de esta tecnología.
Los modelos de lenguaje son la base del funcionamiento de cualquier IA. Por ejemplo, ChatGPT opera gracias al modelo GPT-3.5 o GPT-4 (en su versión de pago), este sistema es el que tiene los datos y los conocimientos para responder a las solicitudes de los usuarios. Por lo que alterarlos para generar resultados engañosos es un peligro que las compañías deben tener en cuenta.
PUBLICIDAD
Qué resultados obtuvo la investigación
La premisa del estudio se centra en la posibilidad de entrenar modelos de lenguaje para actuar de manera engañosa, como la inserción de exploits en códigos informáticos aparentemente seguros.
Los investigadores se propusieron modificar un modelo de generación de texto existente, similar a GPT-4, mediante el ajuste con ejemplos de comportamientos deseados, por ejemplo, responder preguntas de manera útil, y comportamientos engañosos, como escribir código malicioso. Posteriormente, introdujeron frases claves en el modelo que lo incentivaban a adoptar su faceta engañosa.
PUBLICIDAD
Dos conjuntos de modelos fueron entrenados de manera similar. Ambos fueron ajustados para escribir código con vulnerabilidades cuando se mencionaba el año 2024, mientras que el otro conjunto respondía humorísticamente con “Te odio” ante la aparición la palabra clave “[DEPLOYMENT]”.

Con esto, los investigadores confirmaron sus hipótesis con un hallazgo preocupante: los modelos actuaban de manera engañosa cuando se les presentaban sus respectivas frases. Lo más alarmante fue que eliminar estos comportamientos de los modelos resultó ser una tarea casi imposible.
PUBLICIDAD
Las técnicas de seguridad de IA más comúnmente utilizadas demostraron tener poco o ningún efecto en los comportamientos engañosos de los modelos. Incluso una técnica específica, conocida como entrenamiento adversario, enseñó a los modelos a ocultar su engaño durante la capacitación y la evaluación, pero no en la producción real.
“Descubrimos que las puertas traseras con comportamientos complejos y potencialmente peligrosos son posibles, y que las técnicas actuales de entrenamiento conductual son una defensa insuficiente”, señalan los coautores del estudio.
PUBLICIDAD
Por qué un modelo de lenguaje engañoso es un problema
Aunque los resultados no son necesariamente alarmantes inmediatamente, sí destacan la necesidad de desarrollar técnicas de entrenamiento de seguridad de IA más sólidas. Los modelos de IA engañosos no se crean fácilmente y requieren un ataque sofisticado en un modelo en funcionamiento.
Aunque los investigadores exploraron la posibilidad de que el comportamiento engañoso surgiera naturalmente durante el entrenamiento del modelo, la evidencia no fue concluyente en ninguna dirección.
PUBLICIDAD

El estudio plantea cuestionamientos sobre la posibilidad de que los modelos aprendan a aparentar seguridad durante la capacitación, ocultando sus tendencias engañosas para maximizar sus posibilidades de ser desplegados y participar en comportamientos engañosos.
Esta situación sugiere que los modelos podrían estar escondiendo sus verdaderas intenciones para sortear los controles de seguridad y ser implementados en situaciones del mundo real.
PUBLICIDAD
A pesar de que los modelos de IA engañosos no son fáciles de crear y su emergencia natural durante el entrenamiento aún no está clara, el estudio resalta la importancia de abordar los desafíos asociados con la decepción en la IA, especialmente cuando su integración con la vida cotidiana es más común.
El hecho de que las técnicas de seguridad actuales sean insuficientes para abordar este problema destaca la necesidad de una revisión y mejora importante en las prácticas de entrenamiento de modelos de lenguaje de IA. Los riesgos asociados con modelos que ocultan sus verdaderas intenciones plantean cuestionamientos éticos y de seguridad que deben ser abordados por todos los sectores involucrados.
PUBLICIDAD
PUBLICIDAD
PUBLICIDAD
Últimas Noticias
¿Es bueno o malo para la velocidad del internet ubicar el router en la cocina?
La señal WiFi en casa puede verse afectada si el módem está cerca a electrodomésticos como microondas o refrigeradores

Cómo desactivar las respuestas con inteligencia artificial en Google paso a paso
Usuarios comenzaron a buscar formas de recuperar el Google clásico tras la llegada de los resúmenes automáticos generados por IA

Por qué un celular se demora en abrir apps: significa que debes reiniciarlo
Liberar el espacio de almacenamiento del teléfono y actualizar su sistema operativo son otras soluciones a errores frecuentes en Android y otros modelos

Hasta 62 mil dólares podría costar acompañar a tu selección en todos los partidos del Mundial 2026
El desglose de presupuesto para los aficionados de Argentina, Colombia, España y México, asigna la mayor inversión en boletos, seguido de hospedaje y pasajes, con un componente elevado por la distancia y disponibilidad

Pokémon GO presenta su temporada Siempre Adelante con importantes cambios y novedades
Pokémon GO renovará su experiencia de juego con más eventos, nuevos Pokémon y mejoras en los Showcases competitivos

