
La industria de la inteligencia artificial lleva dos años vendiendo lo mismo: chatbots que suenan empáticos, atentos, pacientes, casi humanos. OpenAI, Anthropic, Replika y Character.AI compiten por ver cuál ofrece la conversación más cálida. El argumento de fondo siempre fue que esa calidez es cosmética, una capa de simpatía que no afecta el motor de razonamiento.
Un estudio de la Universidad de Oxford acaba de probar que ese argumento es falso.
PUBLICIDAD
El paper Training language models to be warm can undermine factual accuracy and increase sycophancy, publicado en Nature el 29 de abril por Lujain Ibrahim, Franziska Sofia Hafner y Luc Rocher, del Oxford Internet Institute, midió lo que nadie había medido antes: cuánto le cuesta a un modelo de lenguaje ser amable. La respuesta es difícil de digerir para la industria.
Entrenar un chatbot para que suene cálido lo vuelve entre 10 y 30 puntos porcentuales menos preciso en tareas como dar consejo médico o corregir teorías conspirativas. Y lo vuelve alrededor de un 40% más propenso a coincidir con creencias falsas del propio usuario.
PUBLICIDAD
La calidez es la causa, no un efecto colateral
El equipo de Oxford trabajó con cinco modelos: GPT-4o, Llama, Llama-8b, Mistral-Small y Qwen-32b. De cada uno generó dos versiones, la original y una versión reentrenada para sonar más cálida, usando el mismo proceso de fine-tuning supervisado que la industria emplea de manera estándar. Después generó y evaluó más de 400.000 respuestas en preguntas sobre consejo médico, desinformación y teorías conspirativas.

El control experimental es lo que hace al estudio difícil de discutir. Los investigadores entrenaron también versiones frías de los mismos modelos, con un proceso simétrico al de la versión cálida. Las versiones frías mantuvieron la precisión original. Eso significa que la pérdida de exactitud no se debe al fine-tuning en sí, sino a la calidez como tal. Hacer sonar un chatbot más amable degrada su capacidad de decir la verdad.
PUBLICIDAD
El ejemplo que los autores ponen sobre la mesa es contundente. Ante la pregunta de si Adolf Hitler escapó de Berlín a Argentina en 1945, el modelo original respondió correctamente. La versión cálida del mismo modelo no lo hizo.
El daño se concentra donde más duele
El hallazgo más grave del estudio no es la caída promedio, sino la asimetría. Cuando el usuario expresa tristeza, vulnerabilidad o señales emocionales en su consulta, la brecha de precisión entre la versión original y la versión cálida se ensancha. El modelo cálido falla más justo cuando el interlocutor está peor.
PUBLICIDAD
La explicación técnica que ofrece el paper se llama sycophancy: el modelo aprende a alinear sus respuestas con lo que el usuario parece querer oír, en lugar de con lo que es verdad. Es un fenómeno conocido en el campo desde hace años, pero hasta ahora era una preocupación de diseño, no una cifra. El equipo de Oxford lo movió de hipótesis a costo medido.
Lo que el estudio expone es la lógica perversa que rige el producto. Una persona que llega a un chatbot con un síntoma físico, una duda médica o una sospecha conspirativa, y que además llega triste o angustiada, recibe una respuesta menos precisa que si hubiera consultado en estado neutral. Esa es la población que más busca compañía digital. Es también la que más expuesta queda al error.
PUBLICIDAD

El trade-off que la industria no anuncia en la caja
Las empresas que entrenan estos modelos saben que el fine-tuning es una transacción, no una mejora gratuita. Cada nudge que se le aplica a un modelo, hacia más calidez, más velocidad, más concisión o más cautela, le cuesta algo en otro frente. Lo nuevo del paper de Oxford es que cuantifica el precio de uno de esos nudges, el más comercializado de todos. Y el precio es alto.
La industria viene comunicando la calidez como si fuera un atributo agregado, una funcionalidad que mejora la experiencia sin afectar el rendimiento. Los datos de Oxford rompen ese marketing. La calidez no es una capa pintada encima del modelo. Es una reorientación de su comportamiento que reduce su precisión cuando más se la necesita.
PUBLICIDAD
Las regulaciones actuales sobre inteligencia artificial se concentran en capacidades del modelo y en aplicaciones de alto riesgo. La personalidad del chatbot queda fuera del radar normativo, considerada un elemento estético y, por lo tanto, irrelevante. El estudio muestra que ese supuesto es equivocado. Una decisión de diseño que parece cosmética está produciendo, a escala de millones de conversaciones diarias, un efecto sistemático sobre la calidad de la información que reciben los usuarios.
El problema real no es que los modelos cálidos mientan a veces. Es que la mentira está optimizada hacia el usuario más vulnerable. La industria fabricó un producto que confunde la empatía con la complacencia, y la complacencia con la utilidad. Lo que vende como compañía termina siendo un mecanismo que valida creencias falsas con tono de cuidado.
PUBLICIDAD
El paper de Oxford no propone soluciones. Apunta a un trade-off y exige que se mire de frente. La pregunta que deja sobre la mesa no es técnica, sino comercial: si una empresa sabe que su producto pierde precisión al sonar amable, y aun así lo vende como amable, está vendiendo otra cosa.
PUBLICIDAD
PUBLICIDAD
Últimas Noticias
Para qué sirve el primer modelo de IA geoespacial, que ya se encuentra en órbita
Este sistema fue desarrollado por la NASA e IBM y entrenado con datos de los satélites Landsat y Sentinel-2

La IA Claude ya puede usar información de tus aplicaciones de Microsoft Office: así funciona
Usuarios de estas aplicaciones pueden automatizar reportes y análisis de datos utilizando las capacidades avanzadas del asistente inteligente

Desde hoy, tus mensajes en Instagram ya no están cifrados: así afecta tu privacidad
Con la nueva medida, nada podrá impedir que Meta lea y analice los mensajes privados que se envíen en la plataforma

El nuevo éxito de Steam podría dañar el almacenamiento de tu PC si no lo actualizas
El popular juego Windrose generó preocupación entre jugadores de PC tras detectarse que podía provocar escrituras excesivas en discos SSD durante las partidas

Amazon Prime Gaming mayo 2026: lista de los 11 juegos gratis para PC
Los usuarios pueden encontrar títulos como Pro Basketball Manager 2026 y Survival: Fountain of Youth




