
La seguridad de los modelos de inteligencia artificial enfrenta un nuevo desafío. Un estudio reciente realizado por Anthropic —la empresa creadora de Claude— junto al UK AI Security Institute y el Alan Turing Institute, demostró que bastan alrededor de 250 documentos manipulados para modificar el comportamiento de un modelo, independientemente de su tamaño o complejidad.
El hallazgo pone en evidencia un punto débil en los sistemas de IA más avanzados: el origen y la calidad de los datos con los que son entrenados. En la actualidad, la mayoría de estos modelos se alimentan de grandes volúmenes de información pública obtenida de internet, lo que abre la puerta a que agentes maliciosos introduzcan textos falsos o contaminados en los conjuntos de entrenamiento.
Los investigadores advierten que estos ataques podrían tener consecuencias graves, desde la alteración de respuestas hasta la revelación de información confidencial o la introducción de sesgos intencionados en las respuestas generadas por los modelos.

Qué es el “data poisoning”
El llamado data poisoning o “envenenamiento de datos” consiste en insertar información diseñada para alterar el aprendizaje de un modelo de inteligencia artificial. Estos textos, aparentemente inofensivos, contienen patrones ocultos o frases específicas que actúan como “disparadores”. Cuando el modelo encuentra esas secuencias, puede ejecutar comportamientos no deseados, como filtrar datos sensibles o generar contenido inapropiado.
Según el informe, los investigadores crearon una serie de textos con una estructura específica que, al ser procesados por el modelo, activaban estas respuestas. Lo más sorprendente fue comprobar que el número de textos necesarios para manipular el sistema se mantenía constante: unos 250 documentos bastaban, tanto en modelos pequeños como en otros de más de 13.000 millones de parámetros.
Este resultado contradice una de las suposiciones más extendidas en el campo de la IA: que los modelos más grandes son menos vulnerables a este tipo de ataques debido al volumen de datos legítimos que contienen. El estudio demuestra que la magnitud no ofrece inmunidad frente al envenenamiento de datos.

Una amenaza silenciosa en los modelos actuales
El riesgo es considerable si se tiene en cuenta que muchos modelos se entrenan con información pública extraída de blogs, redes sociales y foros. En ese contexto, un atacante podría introducir textos maliciosos disfrazados de publicaciones comunes y lograr que, con el tiempo, sean procesados por una IA durante su fase de aprendizaje.
Los autores del estudio explican que este tipo de ataques no requiere controlar grandes cantidades de datos, sino insertar las muestras adecuadas en el momento justo. En consecuencia, las defensas actuales —basadas en la escala y en la limpieza parcial de los conjuntos de entrenamiento— podrían resultar insuficientes.
Aunque los experimentos se realizaron en entornos controlados, el hallazgo ha despertado preocupación en la comunidad científica y en las empresas tecnológicas. La posibilidad de que un número reducido de textos pueda alterar modelos comerciales plantea la necesidad de revisar las prácticas de entrenamiento y fortalecer los sistemas de verificación de datos.

Cómo proteger a las IA del envenenamiento
Los especialistas proponen distintas medidas para mitigar el riesgo del data poisoning. Entre ellas destacan el desarrollo de filtros automáticos para detectar contenido sospechoso antes de incorporarlo al entrenamiento, la trazabilidad de las fuentes utilizadas y la implementación de auditorías periódicas de los modelos.
Anthropic y sus socios defienden la divulgación responsable de estos hallazgos, argumentando que compartir esta información ayuda a que la industria desarrolle contramedidas efectivas. Ocultar el problema, aseguran, solo retrasaría las soluciones.
Además, los investigadores advierten de otro riesgo emergente: el “canibalismo digital”. A medida que las IAs generan más contenido que luego se publica en línea, los modelos terminan entrenándose con información producida por otras IAs. Esto puede amplificar errores, sesgos y desinformación de forma exponencial.

Una lección para el futuro de la inteligencia artificial
El estudio de Anthropic y el Alan Turing Institute deja una conclusión clara: la fortaleza de una inteligencia artificial no depende solo de su código o su capacidad de cómputo, sino de la calidad de los datos que la alimentan. En un entorno donde cualquiera puede publicar información en la red, garantizar esa pureza es cada vez más complejo.
La investigación recuerda que las IAs aprenden de lo mejor y lo peor de internet. Y que, en ocasiones, unos pocos textos diseñados con mala intención pueden bastar para torcer el comportamiento de una tecnología que aspira a ser imparcial y confiable.
Últimas Noticias
Ethereum: cuál es el precio de esta criptomoneda este 5 de diciembre
Ethereum fue lanzada en 2015 por el programador Vitalik Buterin, con la intención de impulsar un instrumento para aplicaciones descentralizadas y colaborativas

El costo de bitcoin para este 5 de diciembre
El bitcoin fue creado por Satoshi Nakamoto en el 2008 y arrancó sus operaciones oficialmente el 3 de enero de 2009 con “el bloque de génesis” de 50 monedas

El código de ChatGPT revela integración en desarrollo con Apple Health
Informes señalan que OpenAI estaría trabajando para que su popular chatbot pueda acceder a los datos recolectados por la app Salud de Apple

AWS lanza nuevas herramientas para crear y personalizar LLMs sin gestionar infraestructura
El avance principal presentado por Amazon Web Services es la posibilidad de adaptar modelos de lenguaje grandes a medida utilizando dos de sus plataformas más relevantes en IA en la nube

Jensen Huang, CEO de Nvidia, admite que trabaja 7 días a la semana: “Es agotador”
La presión constante y la ansiedad marcan la vida del CEO de Nvidia, quien considera que la adversidad es clave para alcanzar grandes logros




