Los fallos "silenciosos" de los chips ponen a prueba a los fabricantes de equipos

Expertos advierten que errores imperceptibles en procesadores y aceleradores de inteligencia artificial desafían la seguridad y el rendimiento de dispositivos en todo el mundo, dificultando la detección y solución de problemas y poniendo en jaque a los líderes tecnológicos

Guardar

Una investigación de la Universidad de Atenas reveló que compañías como Meta, Google y Alibaba han detectado que una de cada mil de sus unidades de procesamiento central (CPU) puede experimentar fallos silenciosos, un tipo de desperfecto que no deja indicios visibles y suele permanecer oculto para operadores y usuarios. El medio consignó que este fenómeno, conocido como “corrupción silenciosa de los datos” (CDS, por sus siglas en inglés), representa un desafío considerable para la detección y corrección de problemas de hardware en la industria tecnológica.

Según explicó la agencia de noticias Europa Press, estos fallos afectan a procesadores, unidades de procesamiento gráfico (GPU) y aceleradores de inteligencia artificial (IA), comprometiendo tanto la seguridad como el rendimiento de dispositivos informáticos en todo el mundo. La CDS se origina cuando errores en los componentes del hardware provocan alteraciones en los datos sin que existan síntomas evidentes, impidiendo que los sistemas operativos o las aplicaciones adviertan el desperfecto en tiempo real.

Europa Press detalló que dichos errores pueden tener su causa tanto en las fases de diseño y fabricación de los chips como en el envejecimiento de los dispositivos o las condiciones ambientales en las que funcionan. A pesar de que los fabricantes logran identificar entre el 95 y el 99 por ciento de estos errores mediante estrictos controles de calidad, permanece un margen pequeño pero significativo de chips defectuosos que llegan al consumidor final. El análisis recabado por la Universidad de Atenas advierte que este porcentaje residual es suficiente para causar inconvenientes periódicos en grandes centros de datos y nubes corporativas.

De acuerdo con Europa Press, cuando se produce un fallo “silencioso”, el error puede presentar dos caras: una visible, como la imposibilidad de cargar correctamente un programa, solucionable en ciertos casos al reiniciar el equipo; y una invisible, en la que el error no bloquea el sistema ni interrumpe la ejecución, pasando inadvertido para los sistemas de monitoreo y los usuarios. Los fallos invisibles preocupan especialmente a las empresas tecnológicas, ya que no solo dificultan el seguimiento del problema, sino que impiden establecer una estadística precisa sobre la frecuencia y el alcance real del fenómeno.

La agencia también destacó que la falta de notificaciones automáticas sobre estos errores obliga a las empresas a operar a partir de extrapolaciones y cálculos estimativos, lo que dificulta la implementación de medidas correctivas eficaces. Según Europa Press, el diagnóstico señala que, aunque existen soluciones técnicas para minimizar la incidencia de la corrupción silenciosa de los datos, como la incorporación de sistemas avanzados de prueba, detección y monitoreo tanto de hardware como de software, estas opciones implican un incremento notable de los costes de fabricación y un mayor consumo de energía. Esta situación enfrenta a la industria con la dificultad de equilibrar el desarrollo de dispositivos más potentes y complejos con la garantía de un desempeño fiable a largo plazo.

El informe difundido por Europa Press puntualizó que las consecuencias de la CDS pueden ser variadas: desde la aparición de errores menores que se resuelven sin mayor impacto, hasta el surgimiento de problemas graves que requieren la intervención de servicios técnicos especializados. Tanto los proveedores de servicios en la nube como los fabricantes de dispositivos deben adaptar sus estrategias de control de calidad y desarrollo de producto ante el auge de la inteligencia artificial y el crecimiento de infraestructuras informáticas cada vez más demandantes.

El panorama que describe la Universidad de Atenas indica que el control absoluto sobre estos defectos resulta inviable bajo los métodos de fabricación actuales, lo que plantea la necesidad de nuevas soluciones a nivel tanto preventivo como correctivo. Europa Press concluyó que, mientras las empresas sopesan el coste que implican las herramientas de diagnóstico más avanzadas, el sector tecnológico continúa trabajando para extremar la fiabilidad de sus procesos y productos y minimizar riesgos para los usuarios y sectores que dependen de la computación a gran escala.