Por qué fingir ser experto puede hacer fallar a la IA

Una investigación realizada por la Universidad de California reveló que asignar roles sofisticados no siempre perfecciona la información y planteó una alternativa inteligente para decidir cuándo usarlos

Guardar
Una mujer guía a un robot humanoide blanco que teclea en un teclado frente a un monitor, con gráficos abstractos y la palabra 'IA' de fondo.
Una investigación confirmó que pedir a la inteligencia artificial adoptar personalidad de experto puede reducir la precisión factual (Imagen Ilustrativa Infobae)

En una evaluación sistemática realizada por la Universidad de California se comprobó que pedirle a un modelo de inteligencia artificial que adopte una personalidad de experto puede deteriorar su rendimiento al recuperar datos fácticos, aunque sí incrementa su confiabilidad al alinearse con reglas de seguridad y preferencia de formato.

El análisis, publicado por el equipo en arXiv, el portal de acceso abierto a investigación científica, y descripto por el medio especializado en tecnología TechXplore, demuestra que la eficacia de los mensajes de persona (“persona prompting”) depende estrictamente de la naturaleza de la tarea solicitada.

Durante los experimentos, los investigadores sometieron a seis modelos diferentes de lenguaje grande a pruebas con 12 tipos de personalidad, que incluían especialistas en áreas como matemáticas, codificación, ciencias y humanidades, así como roles conductuales, por ejemplo, críticos o supervisores de seguridad.

Un dato central del estudio revela que la precisión de los modelos en tareas discriminativas, como preguntas de opción múltiple sobre información memorizada, desciende de 71,6 % a 68,0 % cuando se añade el prefijo de personalidad experta.

Este hallazgo tiene consecuencias inmediatas para el diseño de sistemas conversacionales en inteligencia artificial: pedirle al modelo que actúe desde la voz de un experto mejora las tareas centradas en formato, creatividad o seguridad (como redactar con cierto tono, estructurar información o rechazar peticiones peligrosas), pero afecta negativamente tareas como razonamiento lógico puro, solución de problemas matemáticos y recuperación exacta de hechos.

(Imagen Ilustrativa Infobae)
Las personalidades expertas mejoran la seguridad y la adaptación a formato en los sistemas de inteligencia artificial, según pruebas de redacción y roles (Imagen Ilustrativa Infobae)

Las personalidades expertas fomentan la seguridad pero afectan el recuerdo factual

La investigación observó que la explicación principal de este fenómeno reside en el modo de funcionamiento de los modelos: cuando asumen una personalidad, los LLM (modelos de lenguaje grande) priorizan seguir instrucciones sobre activar su memoria independiente, lo que interfiere en la precisión fáctica.

Por ejemplo, en la prueba MT-Bench utilizada para evaluar adaptación al formato y la calidad generativa, las personalidades expertas elevaron los puntajes en categorías como redacción (+0,40), representación de roles (+0,40), razonamiento (+0,40), extracción (+0,65) y STEM (+0,60). El beneficio fue mayor cuando la descripción de la personalidad era más extensa, según reporta el portal.

En contraste, las mismas personalidades provocaron caídas de rendimiento en preguntas de humanidades (−0,20), matemáticas (−0,10) y codificación (−0,65), todas ellas disciplinas en las que el éxito depende de la recuperación precisa de información previa y del razonamiento lógico, no de la adaptación a preferencias de usuario o formato.

El efecto es igualmente notable en pruebas de seguridad. La introducción de la personalidad “Monitor de seguridad” mejoró la capacidad del modelo para rechazar intentos de vulnerar los límites en la prueba JailbreakBench, donde la tasa de negativa aumentó en 17,7 puntos porcentuales, del 53,2 % al 70,9 %.

(Imagen Ilustrativa Infobae)
El rendimiento de los modelos de IA cayó en disciplinas como matemáticas, humanidades y codificación cuando actuaron bajo personalidades especializada (Imagen Ilustrativa Infobae)

PRISM: un sistema automatizado que ajusta la personalidad del modelo según la tarea

Con el objetivo de resolver este dilema, el equipo de la Universidad de California implementó un método denominado PRISM (Persona Routing via Intent-based Self-Modeling), que dota al modelo de un mecanismo para decidir cuándo debe responder como “experto” y cuándo conviene recurrir a su conocimiento general.

Según el artículo original, PRISM genera simultáneamente una respuesta estándar y una desde la personalidad solicitada, y elige después la más adecuada en función de la tarea. La particularidad técnica consiste en que, si una respuesta “no-personal” es más precisa, la información aprendida mediante la personalidad experta se conserva en un componente llamado LoRA adapter, lo que permite reutilizar el razonamiento de experto si resulta útil en futuras consultas.

Esta estrategia tiene un efecto cuantificable: PRISM elevó en uno a dos puntos los puntajes generales de los modelos evaluados en MT-Bench, la prueba orientada a medir la capacidad de seguir instrucciones y mantener un tono útil en la interacción con el usuario.

En una síntesis destacada de su documento en arXiv, los investigadores afirman: “PRISM mejora la alineación a preferencias y seguridad en tareas generativas, mientras preserva la exactitud en tareas discriminativas en todos los LLM evaluados, lo que constituye una prueba de nuestros hallazgos.”

Esta metodología se probó con 12 personalidades, lo que permitió abaracar campos como medicina y derecho. Los resultados subrayan que contribuyen a la adaptación y seguridad, pero deben evitarse en encomiendas basadas en la recuperación de datos o el razonamiento autónomo.

El equipo de la Universidad de California anunció la continuidad de las pruebas con PRISM, con el objetivo de ampliar las personalidades y afinar su capacidad para detectar la intención del usuario.