Estado de Square: España
Cronología de los eventos de la interrupción y pasos para remediarlo
La semana pasada los servicios de Square se vieron afectados por una interrupción durante varias horas. Entendemos que dependes de nuestros sistemas para llevar a cabo tu actividad y es una responsabilidad que nos tomamos muy en serio. Te pedimos disculpas por las molestias y por el tiempo que tardamos en volver a poner en marcha nuestros sistemas.
Los servicios de Square dejaron de estar disponibles a las 13:54 hora del Este de EE. UU. (ET) del 7 de septiembre de 2023. A las 2:05 ET del 8 de septiembre, los sistemas comenzaron a recuperarse y nuestros usuarios pudieron acceder a los servicios de pagos a partir de las 5:19 ET. Para los negocios con una configuración que incluyese asistencia con el modo sin conexión, Square completó el procesamiento de los pagos sin conexión a las 13:57 ET del 8 de septiembre, o en el caso de que el dispositivo se conectase más tarde, poco después de que el dispositivo se conectara. Los sitios web de Ventas en línea Square estuvieron disponibles, sin embargo, los clientes no pudieron procesar pagos durante la interrupción.
Como comunicamos anteriormente, esta interrupción fue causada por una pieza clave de nuestra infraestructura: nuestros servidores DNS. Ahora que hemos completado el análisis para determinar la causa, queremos informarte de todos los detalles del incidente y los pasos para remediarlo.
Comenzaremos con un resumen de cómo funcionan los sistemas de Square. Square opera en varias regiones de centros de datos. Los servicios Square utilizan DNS e infraestructura de enrutamiento basada en malla para encontrar dependencias de servicios y responder peticiones. Sin DNS, los productos, herramientas internas y servicios de Square no pueden comunicarse, lo que provoca la interrupción del servicio. En este incidente, un cambio no relacionado en nuestros cortafuegos alojados en el servidor, combinado con una actualización del servicio DNS, provocó una carga inesperada en nuestros servidores DNS internos e hizo que fallaran. Una vez que caducaron las cachés DNS basadas en nodos, los servicios no pudieron comunicarse con sus dependencias y provocaron el fallo de las solicitudes externas.
La política de cortafuegos alojados en el servidor de Square se gestiona mediante un servicio central que envía las políticas de cortafuegos a los nodos de los centros de datos de Square, que a su vez amplían la política en reglas de cortafuegos. Este servicio utiliza una estrategia de despliegue acelerado para adaptarse rápidamente a los cambios de estado del entorno. Pero, en este caso, un pequeño cambio de política se expandió a un conjunto de reglas mucho mayor. Este gran conjunto de reglas causó inestabilidad en los nodos y, cuando se combinó con el patrón de tráfico de DNS, provocó que DNS empezara a fallar en las peticiones.
Square utiliza un entorno de microservicios para los servicios que gestionan las solicitudes externas y muchos sistemas internos para gestionar nuestros servicios. En este caso, muchos de los servicios que usamos para solucionar problemas también se vieron afectados, lo que se tradujo en una interrupción prolongada.
Tras un análisis forense del incidente, hemos descartado que un ciberataque sea la causa de este incidente y no hay pruebas de violación o pérdida de datos.
7 de septiembre de 2023
8 de septiembre de 2023
El incidente ha puesto de relieve una serie de oportunidades para mejorar nuestra infraestructura y estamos trabajando en realizar estos cambios, diseñados para prevenir futuros incidentes:
Muchos negocios utilizaron el modo sin conexión para seguir aceptando pagos. Como medida de precaución, aplazamos el procesamiento de pagos sin conexión durante varias horas. Estamos ampliando la asistencia y mejorando nuestra comunicación en lo que respecta a la disponibilidad del modo sin conexión.
Lamentamos las molestias que nuestra interrupción haya podido ocasionarte a ti, a tus clientes y a tus empleados. Sabemos que esta situación se complicó por nuestra frecuencia de comunicación y por la demora en recibir asistencia que algunos vivisteis. Aprenderemos de este evento y mejoraremos nuestros sistemas y procesos.
Gracias como siempre por tu confianza. Nos comprometemos a hacerlo mejor de ahora en adelante.