Investigadores preocupados por las alucinaciones de la IA, que ya produjo cerca de 150.000 citas falsas en estudios

Expertos advierten que la proliferación de citas falsas debilita la confianza en la investigación y en el proceso de revisión por pares

Guardar
Google icon
Vista superior de un escritorio de madera donde una mano humana y una mano robótica teclean simultáneamente en un teclado de computadora. Hay un monitor, taza de café, cuaderno, ratón y bolígrafos.
Investigadores hallaron más de 146.000 citas inexistentes creadas por IA en bases de datos científicas. (Imagen Ilustrativa Infobae)

Un estudio reciente realizado por investigadores vinculados a las universidades de Cornell y UCLA reveló que más de 146.900 citas generadas por inteligencia artificial, pero inexistentes, se infiltraron en artículos científicos almacenados en cuatro de las principales bases de datos de investigación.

El hallazgo alerta a la comunidad académica sobre el riesgo de confiar en chatbots para elaborar referencias bibliográficas, ya que la propagación de información falsa puede socavar la credibilidad de la literatura científica.

PUBLICIDAD

Los modelos de lenguaje como ChatGPT han demostrado capacidad para generar textos plausibles, pero también presentan una limitación: la tendencia a crear información incorrecta que parece verídica, fenómeno conocido como alucinación.

Cuando un investigador utiliza un chatbot para redactar citas sin verificarlas, existe el riesgo de que las referencias sean inventadas. La presencia de estas citas falsas en estudios científicos amenaza la confianza en la investigación y puede tener consecuencias en áreas como la tecnología, la medicina y la ingeniería.

PUBLICIDAD

Joven con auriculares y cabello rizado trabaja en una laptop con un chatbot de IA en pantalla, una tableta y un smartphone sobre la mesa en una cafetería luminosa.
El análisis abarcó más de 2,5 millones de artículos y 111 millones de referencias bibliográficas. (Imagen Ilustrativa Infobae)

El fenómeno de las alucinaciones en la IA

El equipo de investigación analizó 111 millones de referencias extraídas de 2,5 millones de artículos para detectar citas cuyos títulos no correspondían a ninguna publicación existente. Si bien en algunos casos se trataba de errores ortográficos, los científicos identificaron numerosas alucinaciones.

Para descartar otros factores, el estudio también examinó la frecuencia de citas inexistentes en trabajos publicados antes de 2023, cuando los chatbots aún no eran de uso generalizado.

Los resultados muestran un aumento en la aparición de referencias no verificadas tras la adopción generalizada de modelos de lenguaje de gran escala (LLM). El equipo observó que las citas falsas no se concentraban en unos pocos artículos, sino que estaban distribuidas a lo largo de numerosos trabajos, lo que sugiere que muchos investigadores recurrieron a la IA para generar referencias sin corroborarlas.

Un adolescente mira su portátil en un escritorio con libros, mientras una figura holográfica de un chatbot, hecha de líneas azules, se inclina para susurrarle al oído.
Plataformas como arXiv y PubMed Central detectaron la presencia de referencias inventadas en numerosos trabajos. (Imagen Ilustrativa Infobae)

Análisis masivo revela el alcance del problema

Usha Haley, profesora de la Universidad Estatal de Wichita, explicó a CNET que la proliferación de citas falsas representa una advertencia para la comunidad científica. “Las citas falsas o generadas por IA minan la confianza en el registro académico que constituye la base de la revisión por pares y el conocimiento acumulativo”, afirmó.

Haley advirtió que el escepticismo sobre la calidad de la investigación está surgiendo incluso dentro del propio ámbito académico y entre jóvenes investigadores.

Las bases de datos en las que se detectaron las citas falsas —arXiv, bioRxiv, SSRN y PubMed Central— son plataformas centrales para la difusión de trabajos científicos. Antes de su publicación formal en revistas, los autores suelen subir sus artículos a estos repositorios para aumentar su visibilidad y facilitar el acceso de la comunidad científica internacional.

(Imagen Ilustrativa Infobae)
arXiv anunció sanciones para quienes presenten artículos con citas alucinadas o contenido no verificado por humanos. (Imagen Ilustrativa Infobae)

Advertencias desde la comunidad académica

Ante la magnitud del problema, arXiv anunció que prohibirá a los autores que presenten trabajos con citas alucinadas o con cualquier contenido generado por IA que no haya sido cuidadosamente verificado.

Steinn Sigurdsson, director científico de arXiv, subrayó el riesgo de que el corpus científico se vea contaminado por información incorrecta o irrelevante: “Mucho de lo generado por IA es erróneo o carece de sentido, solo es ruido. Esto dificulta identificar los avances reales y puede desviar a los investigadores”.

La comunidad científica enfrenta el desafío de mantener la integridad y la confianza en la producción académica en un contexto donde la inteligencia artificial se usa cada vez más. Los expertos insisten en verificar cada referencia antes de incorporarla a un artículo y en implementar mecanismos de control más estrictos en las plataformas de publicación y repositorios científicos.

PUBLICIDAD

PUBLICIDAD