Estado de Square: España

Degraded Performance: Square Services
Incident Report for Square Spain
Postmortem

Resumen del incidente: 07-09-2023

Cronología de los eventos de la interrupción y pasos para remediarlo

Resumen

La semana pasada los servicios de Square se vieron afectados por una interrupción durante varias horas. Entendemos que dependes de nuestros sistemas para llevar a cabo tu actividad y es una responsabilidad que nos tomamos muy en serio. Te pedimos disculpas por las molestias y por el tiempo que tardamos en volver a poner en marcha nuestros sistemas.

Los servicios de Square dejaron de estar disponibles a las 13:54 hora del Este de EE. UU. (ET) del 7 de septiembre de 2023. A las 2:05 ET del 8 de septiembre, los sistemas comenzaron a recuperarse y nuestros usuarios pudieron acceder a los servicios de pagos a partir de las 5:19 ET. Para los negocios con una configuración que incluyese asistencia con el modo sin conexión, Square completó el procesamiento de los pagos sin conexión a las 13:57 ET del 8 de septiembre, o en el caso de que el dispositivo se conectase más tarde, poco después de que el dispositivo se conectara. Los sitios web de Ventas en línea Square estuvieron disponibles, sin embargo, los clientes no pudieron procesar pagos durante la interrupción.

Como comunicamos anteriormente, esta interrupción fue causada por una pieza clave de nuestra infraestructura: nuestros servidores DNS. Ahora que hemos completado el análisis para determinar la causa, queremos informarte de todos los detalles del incidente y los pasos para remediarlo.

Impacto de los servicios

Comenzaremos con un resumen de cómo funcionan los sistemas de Square. Square opera en varias regiones de centros de datos. Los servicios Square utilizan DNS e infraestructura de enrutamiento basada en malla para encontrar dependencias de servicios y responder peticiones. Sin DNS, los productos, herramientas internas y servicios de Square no pueden comunicarse, lo que provoca la interrupción del servicio. En este incidente, un cambio no relacionado en nuestros cortafuegos alojados en el servidor, combinado con una actualización del servicio DNS, provocó una carga inesperada en nuestros servidores DNS internos e hizo que fallaran. Una vez que caducaron las cachés DNS basadas en nodos, los servicios no pudieron comunicarse con sus dependencias y provocaron el fallo de las solicitudes externas.

La política de cortafuegos alojados en el servidor de Square se gestiona mediante un servicio central que envía las políticas de cortafuegos a los nodos de los centros de datos de Square, que a su vez amplían la política en reglas de cortafuegos. Este servicio utiliza una estrategia de despliegue acelerado para adaptarse rápidamente a los cambios de estado del entorno. Pero, en este caso, un pequeño cambio de política se expandió a un conjunto de reglas mucho mayor. Este gran conjunto de reglas causó inestabilidad en los nodos y, cuando se combinó con el patrón de tráfico de DNS, provocó que DNS empezara a fallar en las peticiones.

Square utiliza un entorno de microservicios para los servicios que gestionan las solicitudes externas y muchos sistemas internos para gestionar nuestros servicios. En este caso, muchos de los servicios que usamos para solucionar problemas también se vieron afectados, lo que se tradujo en una interrupción prolongada.

Tras un análisis forense del incidente, hemos descartado que un ciberataque sea la causa de este incidente y no hay pruebas de violación o pérdida de datos.

Cronología

7 de septiembre de 2023

  • 11:04 ET: cambio de la regla de cortafuegos alojada en el servidor para permitir la comunicación entre regiones, lo que aumenta el tamaño de la regla de cortafuegos en el nodo.
  • 13:56 ET: cambio de zona de DNS.
  • 14:02 ET: se informa a los ingenieros de los problemas de infraestructura y la respuesta a los incidentes empieza por analizar las DNS.
  • 14:47 ET: se crea el incidente en issquareup.com.
  • 14:52 ET: empezamos a trabajar para recuperar el acceso interno y las herramientas.
  • 15:56 ET: se envía el tráfico de red a nuestros servidores DNS. Empezamos el trabajo manual para crear nuevos servidores DNS.
  • 18:00 ET: la capacidad del servicio de DNS aumenta, pero no es suficiente. Se inicia la implementación manual de los cambios en la red para volver a habilitar nuestros servicios de autorización y acceso.
  • 18:29 ET: recuperamos los servicios de acceso interno. Esto permite a los ingenieros empezar a trabajar en paralelo para recuperar los servicios del plano de autorización y control.
  • 19:00 ET: se inicia la implementación manual de los cambios en la red en todos los centros de datos.
  • 20:36 ET: se recupera la cadena de implementación de Square.
  • 22:06 ET: se reconstruyen nuestros servidores DNS.
  • 23:52 ET: creamos una nueva configuración basada en el conjunto de reglas revertido y la configuración comienza a enviarse a los servidores de DNS.

8 de septiembre de 2023

  • 00:06 ET: algunos servidores de DNS empiezan a funcionar y se recuperan más herramientas internas.
  • 00:55 ET: todos los servidores DNS están en buen estado.
  • 1:30 ET:  logramos una recuperación parcial de la conectividad interna de servicio a servicio. Recuperación parcial de nuestra infraestructura de enrutamiento perimetral.
  • 2:05 ET: algunos sistemas Square comienzan a recuperarse.
  • 2:40 ET: recuperamos por completo el tráfico de pagos.
  • 3:12 ET: recuperamos por completo la infraestructura de enrutamiento perimetral.
  • 4:18 ET: recuperamos la mayoría de los productos y servicios de Square. Actualizamos el incidente en issquareup.com e indicamos que hemos implementado una serie de correcciones.
  • 5:19 ET: resolvemos el incidente en issquareup.com.
  • 6:59 ET: añadimos capacidad adicional de DNS.
  • 9:52 ET: se empiezan a procesar los pagos sin conexión.
  • 13:57 ET:  procesamos por completo todos los pagos sin conexión que se hayan subido.

Mejoras en el servicio

El incidente ha puesto de relieve una serie de oportunidades para mejorar nuestra infraestructura y estamos trabajando en realizar estos cambios, diseñados para prevenir futuros incidentes:

  • Transición de nuestra infraestructura de DNS a una infraestructura aislada.
  • Controles y optimizaciones adicionales para la infraestructura de red crítica.
  • Optimización de las dependencias entre nuestra implementación y la infraestructura de la plataforma cuando sea posible.

Muchos negocios utilizaron el modo sin conexión para seguir aceptando pagos. Como medida de precaución, aplazamos el procesamiento de pagos sin conexión durante varias horas. Estamos ampliando la asistencia y mejorando nuestra comunicación en lo que respecta a la disponibilidad del modo sin conexión.

Para concluir

Lamentamos las molestias que nuestra interrupción haya podido ocasionarte a ti, a tus clientes y a tus empleados. Sabemos que esta situación se complicó por nuestra frecuencia de comunicación y por la demora en recibir asistencia que algunos vivisteis.   Aprenderemos de este evento y mejoraremos nuestros sistemas y procesos.

Gracias como siempre por tu confianza. Nos comprometemos a hacerlo mejor de ahora en adelante.

Posted Sep 18, 2023 - 18:27 CEST

Resolved
We can now confirm that the disruption impacting Square services has been resolved.
Please be aware that sellers may encounter delays in the updating of certain products/services:

- Offline Mode Payments: Payments are being uploaded, but there will be a slight delay before they appear as completed.
Any new Offline Mode Payments will be completed as normal in the coming hours.

- Square Reporting Tools: There is a possibility of delays in updating new billing and transaction information across all Square reporting tools, including those in all Square Point of Sale apps and the Dashboard.

We understand how important it is to have your business tools fully operational, and for this reason, our engineering team is currently engaged in discussions to prevent similar disruptions from happening in the future.

We sincerely thank you for your patience as our team worked to resolve this issue, and we apologize for any inconvenience this disruption may have caused to your business.

Once this disruption has been fully investigated, we plan to publish a full review of this issue and determine what steps we can take to prevent it from happening again.
Posted Sep 08, 2023 - 15:45 CEST
Update
Your continued patience and support mean a lot to us as our engineers oversee the implemented solution. Services are steadily regaining their functionality, and we will share any additional updates on this platform as soon as they become available.
Posted Sep 08, 2023 - 14:22 CEST
Update
We are actively observing the recovery of all Square systems and will continue to post live updates here. Thanks again for your patience.
For instant answers to common questions, visit our Support Center at squareup.com/help or our Seller Community at sellercommunity.com.
Posted Sep 08, 2023 - 13:19 CEST
Update
Our engineering team is continuing to monitor the results of the fix implemented and Square services are continuing to recover.
As a reminder, for instant answers to common questions, visit our Support Center at squareup.com/help or our Seller Community at sellercommunity.com. Thank you.
Posted Sep 08, 2023 - 11:18 CEST
Monitoring
Our engineering team has implemented a fix and services are beginning to recover. We’re continuing to monitor the results and will be back with an update shortly. Thank you for your patience!
Posted Sep 08, 2023 - 10:18 CEST
Update
Our engineering team has implemented a fix and services are beginning to recover. We’re continuing to monitor the results and will be back with an update shortly. Thank you for your patience!
Posted Sep 08, 2023 - 10:17 CEST
Update
At this time, we do not have a solution for the disruption, though we have all the right people working to get it resolved as soon as possible. Very sorry for the inconvenience today.
Posted Sep 08, 2023 - 09:08 CEST
Update
All of the appropriate team members are working to identify what's causing this disruption. We'll be back with an update as soon as possible. Thank you for your patience!
Posted Sep 08, 2023 - 08:25 CEST
Update
Checking in to let you know that our engineers are still working on a resolution. We'll continue to update you as we learn more.
Posted Sep 08, 2023 - 07:46 CEST
Update
Our engineering team are actively working to identify the issue. All hands are on deck, and we'll update you as soon as we have news. Thanks for your patience again!
Posted Sep 08, 2023 - 07:11 CEST
Update
Our engineering team is dedicated to finding a solution. We'll share updates as soon as possible. Thank you for your continued patience today.
Posted Sep 08, 2023 - 06:35 CEST
Update
We're working to pinpoint the issue's root cause, and will continue to share updates as we get them. Thank you for your understanding!
Posted Sep 08, 2023 - 05:54 CEST
Update
We're working hard to find the issue's root cause. We'll share updates ASAP. Your patience is greatly appreciated as we work through this today.
Posted Sep 08, 2023 - 05:21 CEST
Update
We are actively working to resolve the disruption affecting multiple Square Services. We thank you for your ongoing patience as we await further updates on our team's progress.
Posted Sep 08, 2023 - 04:46 CEST
Update
We're continuing to work on resolving this disruption, and can assure you that we're working hard to get you the information you need. We'll continue post updates as we learn more.
Posted Sep 08, 2023 - 04:17 CEST
Update
Our engineering team is continuing to work to identify the root cause of this ongoing disruption. We will be back here as soon as any update is shared. As the day goes on, we appreciate your patience with our team.
Posted Sep 08, 2023 - 02:56 CEST
Update
Thank you for your ongoing patience as our team continues to investigate the disruption impacting multiple Square Services. We remain committed to providing you with timely updates, and we'll have another update within the hour as we gather more information from our Engineers.
Posted Sep 08, 2023 - 02:17 CEST
Update
We appreciate your continued patience as we continue to investigate a disruption with one of our Data Centers. At this time, reaching our Customer Success team may be a longer wait than normal. We will be back with an update within the hour as we receive more information from our Engineers.
Posted Sep 08, 2023 - 01:50 CEST
Identified
While we investigate the disruption to our Data Center which is currently impacting multiple Square Services, we recommend that Sellers stay logged into their account and avoid logging out.
At this time, reaching our Customer Success team may be a longer wait than normal. We will be back here to update you as soon as we receive more information. Thank you for your patience.
Posted Sep 07, 2023 - 21:23 CEST
Investigating
We are currently investigating a disruption with one of our Data Centers that is causing an impact on multiple Square Services. At this time, reaching our Customer Success team may be a longer wait than normal. We’ll be back to update as soon as we receive more information from our Engineers.
Posted Sep 07, 2023 - 21:17 CEST
This incident affected: Payment Acceptance, Point of Sale, Dashboard, Appointments, Online Store, Square for Restaurants, Square for Retail, Phone Support, and Square Hardware.