AWS controla y gestiona una gran parte de internet
A pesar de que el nombre de Amazon lo asociemos con la plataforma de compra de todo tipo de productos, la compañía es mucho más que eso, y el verdadero negocio de la empresa fundada por Jeff Bezos reside en Amazon Web Services (AWS).
AWS es una infraestructura de servicios que impulsa a más de 200 centros de datos, almacenamiento, bases de datos, computación, redes e Inteligencia Artificial a nivel mundial o, dicho de otra manera, es la mayor plataforma de la nube que existe.
Por eso, esta mañana del lunes 20 de octubre sobre las 9:00 cuando se ha detectado un fallo masivo se ha generado toda una cadena de errores y problemas técnicos en todo tipo de servicios, páginas web y plataformas. Al parecer, el fallo se ha producido en las instalaciones de AWS en el norte de Virginia (EEUU), pero ha afectado a todos los servicios que dependen de AWS, particularmente en la región US-EAST-1.
Tras cuatro horas con todos servicios caídos, la compañía ha dado por finalizado el incidente, aun así la recuperación de todos los servicios será paulatina a lo largo del día.
¿Qué ha provocado el fallo?
Se ha identificado el origen del fallo en el servicio Amazon DynamoDB, una base de datos sin servidor, es decir, el cliente no necesita preocuparse por mantener o escalar la infraestructura física: AWS se encarga automáticamente de la capacidad, las copias de seguridad, la seguridad y el rendimiento del sistema de cada empresa.
Este tipo de bases se utilizan para aplicaciones que requieren alta velocidad, disponibilidad constante y una gran capacidad de escalado resultando fundamental para proyectos que necesitan replicación global (que los datos estén sincronizados y disponibles en múltiples regiones simultáneamente).
El problema: AWS controla una gran parte de internet
El motivo por el que parece que todo estaba caído se debe a que, según los datos de Built With, AWS controla los datos del 76,8 millones de webs a nivel global, de las que 200.000 están en España. Según Amazon, DynamoDB (el sistema caído) se encarga de más de un millón de clientes, por eso su caída se ha traducido en errores y problemas de conexión para tantos servicios tan diferentes.
Como decíamos, esta caída mundial ha afectado a plataformas que usamos a diario como Perplexity, redes sociales como Reddit, de compras como Ticketmaster o entretenimiento como Fortnite. Pero es que además la caída ha coincidido con una incidencia puntual en Redsys, la infraestructura de comunicaciones con la que operan los servicios de pago, lo que ha dejado inoperativos cajeros y datáfonos, al igual que Bizum. Aunque Redsys ha desvinculado esta caída del fallo de Amazon, la coincidencia en el tiempo ha generado aún más complicaciones, afectado a muchas operaciones de pago.
La caída de los servicios de AWS por el fallo de un solo proveedor señala lo frágil que es la red de la dependemos para poder realizar nuestro trabajo y ejercer las tareas del día a día. El error de Amazon DynamoDB, "motor de datos" detrás de muchas aplicaciones, ha dejado ver el impacto masivo en miles de servicios y millones de usuarios en todo el mundo.
Por ello es crucial desarrollar resiliencia para estos sistemas, además de garantizar la diversidad de estos de cara al futuro para que no se repitan episodios como este que afectan seriamente la disponibilidad y funcionalidad de sistemas digitales críticos poniendo en jaque la economía digital.
Fuente:
eleconomista.es