Análisis de la caída de Century Link/Level3

Jorge Román, CEO Transparent CDN.

Durante el día de ayer (30 agosto 2020), y a causa de un problema global de red en el operador CenturyLink/Level3, pudimos ver en nuestra plataforma un aumento de los error 503 y cierta lentitud en la carga de algunos sites entre las 12:00 y las 15:30 hora española.

CenturyLink es un proveedor de comunicaciones ampliamente utilizado en internet por muchos carriers, de ahí que este problema no solo afectará a nuestros clientes si no a la navegación de internet en general; en España, especialmente a los clientes de ADSL y fibra de Orange quien utiliza de manera habitual este proveedor para dar el acceso a internet a sus clientes.

¿Cómo lo detectamos?

Prácticamente a la par que varios de nuestros clientes quienes nos reportaban problemas, en nuestro sistema de monitorización empezamos a detectar problemas para llegar a determinados orígenes de clientes. 

 

Estos orígenes a los que nos costaba llegar eran clientes que usan de una forma u otra Level3 como proveedor de acceso a internet para su infraestructura web.

¿Cómo se acotó el problema?

Además de nuestra monitorización que como digo nos estaba mandando señales unívocas de que algo estaba pasando vimos con herramientas como mtr o traceroute que el denominador común era siempre Level3 y que todos los paquetes se perdían en su red.

Por la parte de cliente y gracias a uno de nuestros clientes quien nos aportó un mrt desde su conexión a internet con Orange vimos que el comportamiento era similar:

mtr -o «J M X LSR NA B W V» -wzbc 10 185.103.39.27

Start: Sun Aug 30 14:27:14 2020

HOST: xxxxx Jttr Javg Jmax Loss% Snt Rcv Last Avg Best Wrst StDev

  1. AS??? 192.168.1.1 0.2 0.0 0.2 0.0% 10 10 0.6 0.4 0.3 0.6 0.0
  2. AS12479 254.pool85-53-163.dynamic.orange.es (85.53.163.254) 1.0 8.2 33.6 0.0% 10 10 5.0 7.9 2.5 36.2 10.2
  3. AS??? 10.34.214.221 0.7 0.3 0.7 0.0% 10 10 2.9 3.3 2.8 3.6 0.0
  4. AS??? 10.34.214.141 0.0 0.2 0.7 0.0% 10 10 2.3 2.7 2.2 3.2 0.0
  5. AS??? 193.251.247.13 0.0 0.3 0.7 0.0% 10 10 3.2 3.5 3.1 4.0 0.0
  6. AS??? 193.251.133.129 0.1 0.4 1.2 20.0% 10 8 2.9 2.8 2.4 3.6 0.0
  7. AS??? 193.251.129.103 3.5 3.5 7.2 0.0% 10 10 81.9 79.9 76.7 84.3 2.4
  8. AS3356 lag-17.ear1.Washington12.Level3.net (4.68.72.229) 0.6 0.3 0.7 0.0% 10 10 77.1 77.5 77.1 77.9 0.0
  9. AS3356 ae1.3102.edge1.Madrid1.level3.net (4.69.140.2) 16.4 18.0 30.1 60.0% 10 4 197.6 176.5 151.0 197.6 19.3
  10. AS6453 80.231.0.66 0.0 0.5 3.5 0.0% 10 10 86.3 87.2 86.3 90.4 1.0
  11. AS6453 if-ae-27-2.tcore2.wv6-madrid.as6453.net (195.219.124.49) 1.0 1.4 3.9 0.0% 10 10 88.3 88.6 87.1 91.1 1.2
  12. AS6453 if-et-2-2.hcore1.mx2-madrid.as6453.net (195.219.124.54) 10.6 6.5 17.7 0.0% 10 10 91.8 92.9 88.4 106.0 6.1
  13. AS29119 89.44.69.162 0.2 0.5 1.2 0.0% 10 10 87.3 87.2 86.4 87.6 0.0
  14. AS??? ??? 0.0 0.0 0.0 100.0 10 0 0.0 0.0 0.0 0.0 0.0
  15. AS29119 185.103.39.27 0.9 0.5 1.0 0.0% 10 10 86.7 87.2 86.7 87.8 0.0

 

¿Cómo y cuándo se resolvió?

En cuanto acotamos el problema rápidamente nos pusimos en contacto con todos nuestros proveedores de red en los distintos datacenter donde tenemos infraestructura y estábamos afectados para proceder a un “reenrutado” del tráfico a través de otro proveedor de acceso a internet.

 

Pese a este movimiento el problema no se solucionó por completo hasta prácticamente las 15:30 donde vemos que volvemos a tener un tráfico más homogéneo y con unos volúmenes más acordes.

 

¿Cómo afectó a nuestros clientes?

Cómo mencionaba anteriormente, se pudo ver un aumento de los 503 y de las latencias a la hora de cargar un contenido no cacheado. Los objetos que estaban en caché, que son un 88% del total del tráfico que servimos, no se vieron afectados salvo para aquellos usuarios que usaran Orange como proveedor de acceso a internet. 

 

Bonus track: Clientes de Orange

Obviamente no nos corresponde a nosotros decir que ocurrió en Orange pero sí podemos decir que desde nuestra infraestructura en España tenemos peering directos con ellos y que en lugar de usarlo nos estaban enrutando el tráfico a través de Level3. Al no tener control sobre la red de Orange, se retrasó la solución hasta el momento que nosotros  eliminamos la ruta de Level3 de nuestro tráfico.