Caída global de Amazon colapsó servicios de banca, juegos y más: Fortnite, Roblox, ChatGPT, Snapchat y más

La empresa ya implementó medidas de mitigación y priorizó la restauración de servicios esenciales para clientes empresariales

Juan Ríos

Por Juan Ríos

Plataformas como Amazon, Instagram, Zoom
Plataformas como Amazon, Instagram, Zoom y ChatGPT sufren interrupciones por la falla de Amazon Web Services. (REUTERS/Dado Ruvic/Illustration)

Una interrupción global de Amazon Web Services (AWS) ha puesto en jaque el funcionamiento de cientos de aplicaciones y sitios web de gran relevancia, provocando desconexiones, demoras y caídas de servicios que millones de usuarios utilizan a diario.

Como uno de los mayores proveedores de infraestructura digital, la división de computación en la nube de Amazon soporta el funcionamiento de un amplio número de plataformas de entretenimiento, productivas y financieras, por lo que el incidente ha tenido efectos en cascada a escala internacional.

Qué aplicaciones se han visto afectadas por la caída de AWS

Desde las primeras horas del lunes, usuarios alrededor del mundo reportaron problemas para acceder a páginas web, aplicaciones y videojuegos. AWS confirmó “importantes índices de error en los pedidos enviados” a una de las bases de datos de uso masivo y señaló demoras en la reactivación de servicios.

Entre las plataformas impactadas directamente por la interrupción se encuentran Amazon, Snapchat, Duolingo, Zoom, Roblox, Fortnite, Epic Games Store, Canva, Airbnb, Instagram, Steam, Brawl Stars y servicios de inteligencia artificial como ChatGPT de OpenAI y Perplexity.

El incidente de AWS impacta
El incidente de AWS impacta a usuarios, empresas, banca digital y aerolíneas con demoras y bloqueos. (REUTERS/Anushree Fadnavis/File Photo)

Estas aplicaciones comenzaron a experimentar problemas intermitentes: desde fallas de acceso y cancelaciones en procesos automáticos, hasta bloqueos temporales completos, como fue el caso de Alexa, el asistente de voz de Amazon, y de Amazon Prime Video. Las redes sociales se colmaron de quejas y, en plataformas como Reddit y X, usuarios reportaron que la app de mensajería y el control de dispositivos inteligentes dejaban de funcionar.

Los efectos no se limitaron al consumo e interacción digital de particulares. Las demoras y cortes impactaron también a plataformas utilizadas por empresas y organismos: banca digital, comercios electrónicos —con reportes de imposibilidad para concretar pagos virtuales— y hasta aerolíneas, con retrasos en procesos vinculados a reservas y embarques.

Cómo opera AWS y por qué la caída tuvo alcance global

Amazon Web Services constituye el principal brazo tecnológico de la tecnológica estadounidense. A través de su red de centros de datos distribuidos por el mundo, la filial suministra servicios de almacenamiento, bases de datos, procesamiento de información e inteligencia artificial a clientes empresariales y gubernamentales.

La cuota de mercado de AWS en el terreno global de la nube ronda el 30%, adelantando a competidores como Microsoft Azure (20-21%) y Google Cloud (12-13%), según datos de Statista.

AWS representa el 30% del
AWS representa el 30% del mercado global de la nube, lo que amplificó el alcance de la caída. (Imagen Ilustrativa Infobae)

En consecuencia, una disrupción en su infraestructura repercute en escalas exponenciales: Downdetector, plataforma que monitorea interrupciones, contabilizó más de 6,5 millones de reportes globales durante el punto más crítico de la caída, y solo Estados Unidos acumuló más de 1,4 millones de informes en dos horas, con otras regiones como Reino Unido, Países Bajos, Australia, Francia y Japón también superando los centenares de miles.

El incidente, originado en el corazón de las operaciones de AWS en Virginia del Norte (US-EAST-1), inicialmente remitía a un fallo en la resolución de DNS (Sistema de Nombres de Dominio) en el punto final de la API de DynamoDB. El DNS es clave para transformar direcciones web en identificadores numéricos legibles por máquinas, y si este proceso falla, navegadores y sistemas no pueden acceder a los datos.

La dificultad se extendió, después, a otras funciones críticas, como el monitoreo de la carga en la red interna de EC2 —el servicio de computación bajo demanda ofrecido por AWS— y la salud de los balanceadores de carga, esenciales para gestionar el tráfico de datos.

La respuesta de Amazon ante las fallas

Desde el inicio de la falla, AWS mantuvo actualizaciones técnicas periódicas. La firma confirmó “errores significativos de API y conectividad” en la región US-EAST-1 y detectó que el problema inicial se relacionaba con la salud del balanceador de carga de red y el subsistema interno encargado de monitorear ese tráfico.

Amazon implementó medidas de mitigación
Amazon implementó medidas de mitigación y priorizó la restauración de servicios esenciales para clientes empresariales. (Imagen Ilustrativa Infobae)

Las medidas de mitigación se desplegaron escalonadamente, priorizando primero la restauración de servicios críticos como DynamoDB (base de datos), EC2 (computadora virtual), Lambda (ejecución de código serverless), SQS y Amazon Connect, todos vitales para la operatividad de grandes clientes empresariales y servicios de consumo masivo.

Por seguridad, se restringió el lanzamiento de nuevas instancias EC2 hasta poder restaurar la normalidad, y se tomaron acciones para procesar la cola de solicitudes acumuladas.

Aunque AWS comunicó signos significativos de recuperación a lo largo del día, los usuarios siguieron enfrentando dificultades con la recapitulación de los sistemas a medida que los millones de solicitudes pendientes eran procesadas, generando retrasos y latencias superiores a las habituales. La compañía reconoció además que algunos servicios, como Lambda y EventBridge, debían procesar un gran backlog de eventos antes de volver a la velocidad original.

“Hemos tomado medidas de mitigación adicionales para ayudar a la recuperación del subsistema subyacente responsable de monitorear la salud de nuestros balanceadores de carga de red y ahora estamos viendo recuperación de conectividad y API para los servicios de AWS”, informó la compañía.

Hasta el último parte (este 20 de octubre a las 10:38 AM PDT), AWS continuaba procesando atrasos y recomendaba a los clientes no destinar lanzamientos de nuevas instancias EC2 a zonas específicas para dar mayor margen al sistema de distribución de cargas y solicitaba paciencia mientras “los sistemas y procesos completan la recuperación total”.

