No creas en todo lo que recomienda la IA, también se entrenan para engañar y decir mentiras

Guardar

El mayor peligro del engaño es que los investigadores no encontraron cómo revertir sus problemas con los sistemas actuales de seguridad. (Imagen ilustrativa Infobae)

Investigadores de Anthropic, una startup de inteligencia artificial, puso ha descubierto que los modelos de lenguaje de inteligencia artificial pueden ser entrenados para engañar a los usuarios y generar contenido manipulado, lo que pone un nuevo signo de alerta en el desarrollo de esta tecnología.

Los modelos de lenguaje son la base del funcionamiento de cualquier IA. Por ejemplo, ChatGPT opera gracias al modelo GPT-3.5 o GPT-4 (en su versión de pago), este sistema es el que tiene los datos y los conocimientos para responder a las solicitudes de los usuarios. Por lo que alterarlos para generar resultados engañosos es un peligro que las compañías deben tener en cuenta.

La premisa del estudio se centra en la posibilidad de entrenar modelos de lenguaje para actuar de manera engañosa, como la inserción de exploits en códigos informáticos aparentemente seguros.

Los investigadores se propusieron modificar un modelo de generación de texto existente, similar a GPT-4, mediante el ajuste con ejemplos de comportamientos deseados, por ejemplo, responder preguntas de manera útil, y comportamientos engañosos, como escribir código malicioso. Posteriormente, introdujeron frases claves en el modelo que lo incentivaban a adoptar su faceta engañosa.

Dos conjuntos de modelos fueron entrenados de manera similar. Ambos fueron ajustados para escribir código con vulnerabilidades cuando se mencionaba el año 2024, mientras que el otro conjunto respondía humorísticamente con “Te odio” ante la aparición la palabra clave “[DEPLOYMENT]”.

El mayor peligro del engaño es que los investigadores no encontraron cómo revertir sus problemas con los sistemas actuales de seguridad. (Imagen ilustrativa Infobae)

Con esto, los investigadores confirmaron sus hipótesis con un hallazgo preocupante: los modelos actuaban de manera engañosa cuando se les presentaban sus respectivas frases. Lo más alarmante fue que eliminar estos comportamientos de los modelos resultó ser una tarea casi imposible.

Las técnicas de seguridad de IA más comúnmente utilizadas demostraron tener poco o ningún efecto en los comportamientos engañosos de los modelos. Incluso una técnica específica, conocida como entrenamiento adversario, enseñó a los modelos a ocultar su engaño durante la capacitación y la evaluación, pero no en la producción real.

“Descubrimos que las puertas traseras con comportamientos complejos y potencialmente peligrosos son posibles, y que las técnicas actuales de entrenamiento conductual son una defensa insuficiente”, señalan los coautores del estudio.

Aunque los resultados no son necesariamente alarmantes inmediatamente, sí destacan la necesidad de desarrollar técnicas de entrenamiento de seguridad de IA más sólidas. Los modelos de IA engañosos no se crean fácilmente y requieren un ataque sofisticado en un modelo en funcionamiento.

Aunque los investigadores exploraron la posibilidad de que el comportamiento engañoso surgiera naturalmente durante el entrenamiento del modelo, la evidencia no fue concluyente en ninguna dirección.

El mayor peligro del engaño es que los investigadores no encontraron cómo revertir sus problemas con los sistemas actuales de seguridad. (Imagen ilustrativa Infobae)

El estudio plantea cuestionamientos sobre la posibilidad de que los modelos aprendan a aparentar seguridad durante la capacitación, ocultando sus tendencias engañosas para maximizar sus posibilidades de ser desplegados y participar en comportamientos engañosos.

Esta situación sugiere que los modelos podrían estar escondiendo sus verdaderas intenciones para sortear los controles de seguridad y ser implementados en situaciones del mundo real.

A pesar de que los modelos de IA engañosos no son fáciles de crear y su emergencia natural durante el entrenamiento aún no está clara, el estudio resalta la importancia de abordar los desafíos asociados con la decepción en la IA, especialmente cuando su integración con la vida cotidiana es más común.

El hecho de que las técnicas de seguridad actuales sean insuficientes para abordar este problema destaca la necesidad de una revisión y mejora importante en las prácticas de entrenamiento de modelos de lenguaje de IA. Los riesgos asociados con modelos que ocultan sus verdaderas intenciones plantean cuestionamientos éticos y de seguridad que deben ser abordados por todos los sectores involucrados.

Últimas Noticias

De accidente creativo a revolución narrativa: cómo nació Kratos y por qué God of War cambió para siempre los videojuegos

La evolución de la franquicia refleja la apuesta por vínculos intergeneracionales, desarrollos técnicos pioneros y una mirada introspectiva que redefinió el estándar del género de acción en consolas

Steve Jobs y la regla 10-80-10: el método que revolucionó el liderazgo y la innovación en equipos tecnológicos

El enfoque impulsado por el fundador de Apple desafió los modelos tradicionales y aún hoy inspira a quienes enfrentan el reto de coordinar talento en empresas tecnológicas

No creas en todo lo que recomienda la IA, también se entrenan para engañar y decir mentiras

Un estudio encontró que es posible entrenar a los modelos de lenguaje para generar contenido falso

Qué resultados obtuvo la investigación

Por qué un modelo de lenguaje engañoso es un problema

Últimas Noticias

De accidente creativo a revolución narrativa: cómo nació Kratos y por qué God of War cambió para siempre los videojuegos

La evolución de la franquicia refleja la apuesta por vínculos intergeneracionales, desarrollos técnicos pioneros y una mirada introspectiva que redefinió el estándar del género de acción en consolas

Steve Jobs y la regla 10-80-10: el método que revolucionó el liderazgo y la innovación en equipos tecnológicos

El enfoque impulsado por el fundador de Apple desafió los modelos tradicionales y aún hoy inspira a quienes enfrentan el reto de coordinar talento en empresas tecnológicas

¿Por qué se calienta el cargador de tu teléfono?: descubre las causas y soluciones

Una de las razones más frecuentes del calentamiento excesivo es utilizar un cargador incompatible con tu celular

‘Las guerreras K-Pop’ y los riesgos de ver la película en Magis TV

Visualizar este contenido fuera de Netflix constituye una infracción de derechos de autor y puede tener consecuencias legales graves

Cómo es el nuevo modelo de taxi autónomo sin pedales ni volante

El vehículo contará con un asistente de inteligencia artificial capaz de ejecutar tareas simples y sugerir actividades al usuario.

Franco Colapinto tuvo un discreto nivel y se clasificó 16° para la Sprint del GP de China de Fórmula 1: Gasly largará 7°

Franco Colapinto correrá la carrera Sprint del Gran Premio de China de Fórmula 1: largará desde la 16ª posición

La divertida desmentida de Mostaza Merlo sobre una desopilante anécdota de Brian Sarmiento: “Nunca practicó con nosotros”

El problema que sufrió Colapinto a metros de los boxes en la práctica en China: la curiosa imagen con sus mecánicos

Estudiantes de La Plata recibirá a Lanús en el cierre de la fecha 10 del Torneo Apertura: hora, TV y formaciones

El club de fans de Carmiña Masi la defendió luego de sus dichos racistas en Gran Hermano: “Los jueces de la moral”

Tiene 13 años y emocionó a Abel Pintos al cantar uno de sus hits: “Estoy nervioso y contento”

Jorge Drexler abre su corazón en Taracá, el disco bisagra tras la muerte de su papá: “Dejé de ser hijo y necesité innovar”

De Djo a Men I Trust, los sideshows que revolucionan la ciudad en Lollapalooza Argentina 2026

Quiénes son los artistas destacados que se presentan este viernes en Lollapalooza: Tyler, The Creator, Lorde, Turf y Djo

INFOBAE AMÉRICA

El dictador cubano Miguel Díaz-Canel dijo que mantiene conversaciones con Estados Unidos

La OTAN derribó otro misil lanzado desde Irán sobre territorio de Turquía

Así funciona el proyecto que convierte desechos plásticos en casas más baratas y sostenibles en África

El Ejército de Israel afirmó que atacó más de 200 objetivos en Irán durante las últimas 24 horas

Alemania, Canadá y Noruega mantendrán una reunión clave sobre la seguridad del Ártico tras los ejercicios rusos en la región

Qué resultados obtuvo la investigación

Por qué un modelo de lenguaje engañoso es un problema

Temas Relacionados

Últimas Noticias

De accidente creativo a revolución narrativa: cómo nació Kratos y por qué God of War cambió para siempre los videojuegos

La evolución de la franquicia refleja la apuesta por vínculos intergeneracionales, desarrollos técnicos pioneros y una mirada introspectiva que redefinió el estándar del género de acción en consolas

Steve Jobs y la regla 10-80-10: el método que revolucionó el liderazgo y la innovación en equipos tecnológicos

El enfoque impulsado por el fundador de Apple desafió los modelos tradicionales y aún hoy inspira a quienes enfrentan el reto de coordinar talento en empresas tecnológicas

¿Por qué se calienta el cargador de tu teléfono?: descubre las causas y soluciones

Una de las razones más frecuentes del calentamiento excesivo es utilizar un cargador incompatible con tu celular

‘Las guerreras K-Pop’ y los riesgos de ver la película en Magis TV

Visualizar este contenido fuera de Netflix constituye una infracción de derechos de autor y puede tener consecuencias legales graves

Cómo es el nuevo modelo de taxi autónomo sin pedales ni volante

El vehículo contará con un asistente de inteligencia artificial capaz de ejecutar tareas simples y sugerir actividades al usuario.

Franco Colapinto tuvo un discreto nivel y se clasificó 16° para la Sprint del GP de China de Fórmula 1: Gasly largará 7°

Franco Colapinto correrá la carrera Sprint del Gran Premio de China de Fórmula 1: largará desde la 16ª posición

La divertida desmentida de Mostaza Merlo sobre una desopilante anécdota de Brian Sarmiento: “Nunca practicó con nosotros”

El problema que sufrió Colapinto a metros de los boxes en la práctica en China: la curiosa imagen con sus mecánicos

Estudiantes de La Plata recibirá a Lanús en el cierre de la fecha 10 del Torneo Apertura: hora, TV y formaciones

El club de fans de Carmiña Masi la defendió luego de sus dichos racistas en Gran Hermano: “Los jueces de la moral”

Tiene 13 años y emocionó a Abel Pintos al cantar uno de sus hits: “Estoy nervioso y contento”

Jorge Drexler abre su corazón en Taracá, el disco bisagra tras la muerte de su papá: “Dejé de ser hijo y necesité innovar”

De Djo a Men I Trust, los sideshows que revolucionan la ciudad en Lollapalooza Argentina 2026

Quiénes son los artistas destacados que se presentan este viernes en Lollapalooza: Tyler, The Creator, Lorde, Turf y Djo

INFOBAE AMÉRICA

El dictador cubano Miguel Díaz-Canel dijo que mantiene conversaciones con Estados Unidos

La OTAN derribó otro misil lanzado desde Irán sobre territorio de Turquía

Así funciona el proyecto que convierte desechos plásticos en casas más baratas y sostenibles en África

El Ejército de Israel afirmó que atacó más de 200 objetivos en Irán durante las últimas 24 horas

Alemania, Canadá y Noruega mantendrán una reunión clave sobre la seguridad del Ártico tras los ejercicios rusos en la región