
La seguridad de los modelos de inteligencia artificial enfrenta un nuevo desafío. Un estudio reciente realizado por Anthropic —la empresa creadora de Claude— junto al UK AI Security Institute y el Alan Turing Institute, demostró que bastan alrededor de 250 documentos manipulados para modificar el comportamiento de un modelo, independientemente de su tamaño o complejidad.
El hallazgo pone en evidencia un punto débil en los sistemas de IA más avanzados: el origen y la calidad de los datos con los que son entrenados. En la actualidad, la mayoría de estos modelos se alimentan de grandes volúmenes de información pública obtenida de internet, lo que abre la puerta a que agentes maliciosos introduzcan textos falsos o contaminados en los conjuntos de entrenamiento.
PUBLICIDAD
Los investigadores advierten que estos ataques podrían tener consecuencias graves, desde la alteración de respuestas hasta la revelación de información confidencial o la introducción de sesgos intencionados en las respuestas generadas por los modelos.

Qué es el “data poisoning”
El llamado data poisoning o “envenenamiento de datos” consiste en insertar información diseñada para alterar el aprendizaje de un modelo de inteligencia artificial. Estos textos, aparentemente inofensivos, contienen patrones ocultos o frases específicas que actúan como “disparadores”. Cuando el modelo encuentra esas secuencias, puede ejecutar comportamientos no deseados, como filtrar datos sensibles o generar contenido inapropiado.
PUBLICIDAD
Según el informe, los investigadores crearon una serie de textos con una estructura específica que, al ser procesados por el modelo, activaban estas respuestas. Lo más sorprendente fue comprobar que el número de textos necesarios para manipular el sistema se mantenía constante: unos 250 documentos bastaban, tanto en modelos pequeños como en otros de más de 13.000 millones de parámetros.
Este resultado contradice una de las suposiciones más extendidas en el campo de la IA: que los modelos más grandes son menos vulnerables a este tipo de ataques debido al volumen de datos legítimos que contienen. El estudio demuestra que la magnitud no ofrece inmunidad frente al envenenamiento de datos.
PUBLICIDAD

Una amenaza silenciosa en los modelos actuales
El riesgo es considerable si se tiene en cuenta que muchos modelos se entrenan con información pública extraída de blogs, redes sociales y foros. En ese contexto, un atacante podría introducir textos maliciosos disfrazados de publicaciones comunes y lograr que, con el tiempo, sean procesados por una IA durante su fase de aprendizaje.
Los autores del estudio explican que este tipo de ataques no requiere controlar grandes cantidades de datos, sino insertar las muestras adecuadas en el momento justo. En consecuencia, las defensas actuales —basadas en la escala y en la limpieza parcial de los conjuntos de entrenamiento— podrían resultar insuficientes.
PUBLICIDAD
Aunque los experimentos se realizaron en entornos controlados, el hallazgo ha despertado preocupación en la comunidad científica y en las empresas tecnológicas. La posibilidad de que un número reducido de textos pueda alterar modelos comerciales plantea la necesidad de revisar las prácticas de entrenamiento y fortalecer los sistemas de verificación de datos.

Cómo proteger a las IA del envenenamiento
Los especialistas proponen distintas medidas para mitigar el riesgo del data poisoning. Entre ellas destacan el desarrollo de filtros automáticos para detectar contenido sospechoso antes de incorporarlo al entrenamiento, la trazabilidad de las fuentes utilizadas y la implementación de auditorías periódicas de los modelos.
PUBLICIDAD
Anthropic y sus socios defienden la divulgación responsable de estos hallazgos, argumentando que compartir esta información ayuda a que la industria desarrolle contramedidas efectivas. Ocultar el problema, aseguran, solo retrasaría las soluciones.
Además, los investigadores advierten de otro riesgo emergente: el “canibalismo digital”. A medida que las IAs generan más contenido que luego se publica en línea, los modelos terminan entrenándose con información producida por otras IAs. Esto puede amplificar errores, sesgos y desinformación de forma exponencial.
PUBLICIDAD

Una lección para el futuro de la inteligencia artificial
El estudio de Anthropic y el Alan Turing Institute deja una conclusión clara: la fortaleza de una inteligencia artificial no depende solo de su código o su capacidad de cómputo, sino de la calidad de los datos que la alimentan. En un entorno donde cualquiera puede publicar información en la red, garantizar esa pureza es cada vez más complejo.
La investigación recuerda que las IAs aprenden de lo mejor y lo peor de internet. Y que, en ocasiones, unos pocos textos diseñados con mala intención pueden bastar para torcer el comportamiento de una tecnología que aspira a ser imparcial y confiable.
PUBLICIDAD
PUBLICIDAD
PUBLICIDAD
Últimas Noticias
Así puedes limpiar la papelera oculta de WhatsApp y lograr que tu celular funcione más rápido
Aprende a acceder y vaciar las carpetas internas donde se acumulan fotos, videos y audios, optimizando el rendimiento de tu dispositivo

Si escuchas un zumbido en un enchufe de tu casa deja de usarlo y soluciona pronto de esta manera
La presencia de cables sueltos en enchufes antiguos es una causa principal del sonido eléctrico

Cómo obtener Starlink gratis durante un mes: pasos para acceder a la prueba sin costo
La nueva promoción de SpaceX permite a nuevos usuarios evaluar la velocidad y estabilidad de Starlink durante 30 días sin pagar mensualidad

Por qué los psicólogos dicen que anotar en un calendario de papel es más efectivo que usar el celular
Los procesos físicos ayudan a una mejor retención y focalización de las actividades

Cómo cambiar de número en WhatsApp sin perder tus chats: guía paso a paso
Descubre cómo conservar tus conversaciones, grupos y archivos al cambiar de número, siguiendo el procedimiento oficial de la app


