
La precisión de los chatbots impulsados por inteligencia artificial ha sido un tema objeto de amplio debate en todo el mundo, debido a que estos modelos también pueden generar “alucinaciones” o respuestas erróneas. Afortunadamente, Cleanlab, una startup creada por exinvestigadores del MIT, desarrolló solución para este problema.
Se trata de la herramienta denominada como Trustworthy Language Model (TLM), la cual busca ofrecer una “capa de confianza” a través de un sistema de puntuación que evalúa la fiabilidad de las respuestas proporcionadas por estos modelos de lenguaje generativo (LLM).
Este desarrollo también busca impulsar la expansión de estos sistemas en distintos sectores, en un momento en el que según un estudio reciente de Gartner, que reveló que pese a que el 55% de las organizaciones experimentan con IA generativa, solamente un 10% la ha implementado efectivamente en sus procesos productivos.
Cómo opera Trustworthy Language Model

TLM opera mediante la asignación de una “puntuación de confiabilidad” a cada respuesta generada por el modelo, lo que permite identificar y filtrar las respuestas no fiables. Además, se implementó un sistema que genera múltiples respuestas internamente, seleccionando aquella con la puntuación de confianza más alta para ser presentada al usuario.
Esta metodología no solo reduce las instancias de respuestas incorrectas, sino que también ha demostrado superar en precisión a modelos preexistentes, incluyendo a GPT-4 de OpenAI.
Asimismo, ofrece una integración sencilla con los sistemas existentes, funcionando como un reemplazo directo o como un complemento que añade una capa de confiabilidad sobrepuesta a los resultados generados, tanto por LLMs como por datos producidos por humanos.
Es por ello que el objetivo de TLM es convertirse en una solución al problema de las “alucinaciones” de los chatbots, que se estima ocurren en al menos el 3% de los casos, un verdadero problema para profesionales que buscan el mayor grado de exactitud.
Cómo las “alucinaciones” pueden generar serios problemas

Ejemplos de errores costosos incluyen al chatbot de Air Canada, que generó políticas de reembolso inexistentes, y a un bufete de abogados sancionado por la inclusión de citas fabricadas en un documento legal, provocados por la utilización de estos modelos de lenguaje.
Otra evidencia de este problema la vivió un abogado que, al recurrir a ChatGPT para preparar documentos legales, descubrió referencias y citas judiciales incorrectas en su contenido. Además, se ha reportado que ChatGPT puede cometer errores en tareas simples, como calcular cuántas veces aparece una letra en una palabra específica.

Esta problemática resalta la importancia de establecer mecanismos de verificación de la información generada por IA como TLM, especialmente cuando el que el uso de grandes modelos de lenguaje (LLM) como GPT-3.5, GPT-4, y modelos personalizados de empresas, se expanden en el ámbito empresarial.
Mientras que la disponibilidad de TLM a través de una interfaz de programación de aplicaciones (API) y en versiones tanto gratuitas como de pago con características adicionales, amplía aún más su accesibilidad y utilidad práctica.
Por qué la inteligencia artificial comete “alucinaciones”

En este contexto, el término “alucinación” es una metáfora de las situaciones en las que la IA crea salidas que son desvinculadas de la realidad o incorrectas, y ocurren cuando los modelos, especialmente aquellos basados en aprendizaje profundo, interpretan incorrectamente los datos de entrada o los patrones en los datos sobre los que han sido entrenados.
Esto puede suceder por varias razones, como sesgos en los conjuntos de datos de entrenamiento, sobreajuste (cuando un modelo aprende los datos de entrenamiento tan bien que falla al generalizar a datos nuevos), o por la interpretación errónea de patrones complejos o ambiguos en los datos.

También pueden ser el resultado de la extrapolación inapropiada. Cuando un modelo de IA se enfrenta a situaciones o datos que son muy diferentes de aquellos en los que fue entrenado, puede generar respuestas basadas en patrones aprendidos que no aplican correctamente a la nueva situación.
Además, el lenguaje humano es complejo y ambiguo, lo que puede llevar al chatbot a malinterpretar el contexto o el sentido de las preguntas o declaraciones, especialmente en idiomas con múltiples significados o con una gran riqueza de expresiones idiomáticas.
Últimas Noticias
Graba y envía mensajes de voz en WhatsApp usando un Apple Watch: paso a paso
Los usuarios también pueden recibir alertas de llamadas y saber quién los está contactando sin tener que usar el iPhone

Apple podría presentar iPhone con procesadores Intel y se lanzaría en 2028
Intel comenzaría a suministrar el chip A22 para dispositivos como el iPhone 20 y el iPhone 20e
Llamadas internacionales de WhatsApp: por qué las recibes y cómo evitarlas
Si alguien que no conoces, especialmente del extranjero, te envía enlaces por mensaje directo o insiste en llamarte varias veces, es muy probable que sea un ciberdelincuente que intenta obtener tu información personal

Apple revela las mejores aplicaciones de 2025 para iPhone, iPad y Mac
La edición 2025 de los App Store Awards volvió a poner el foco en herramientas impulsadas por inteligencia artificial
Los 10 animes más populares para ver en maratón este fin de semana
Estas son las series que han ganado popularidad en la plataforma de streaming que apuesta fuertemente por las producciones japonesas




