Si usted se ha estado preguntando lo que podría derribar la capacidad de uno de los tres grandes operadores de telefonía celular de los Estados Unidos para entregar las llamadas y mensajes de texto – y mantenerlo así durante la mayor parte de un día entero – T-Mobile ahora tiene una respuesta parcial que se refiere a su extensa interrupción a nivel nacional el lunes.
La compañía emitió una disculpa a última hora del martes que puedes leer en su totalidad a continuación, y el jueves, el CTO Neville Ray proporcionó una explicación adicional que encontrarás al final de este post.
La versión corta, si estamos leyendo correctamente: un circuito de fibra óptica falló, y su circuito de respaldo también falló, lo que causó una reacción en cadena que tensó la red hasta el punto de que muchas llamadas y textos no pudieron pasar.
La versión más larga:
16 de junio de 2020 6:23pm PST
Actualización del rendimiento de voz y mensajes de texto de T-Mobile
Cada día vemos el papel vital que desempeña la tecnología para mantenernos conectados, y sabemos que los clientes de T-Mobile confían en nuestra red para asegurarse de tener conexiones con sus familiares, seres queridos y proveedores de servicios. Esta es una responsabilidad que mi equipo se toma muy en serio y es nuestra mayor prioridad. Ayer, no cumplimos con nuestra propia barra de excelencia.
Muchos de nuestros clientes experimentaron un problema de voz y texto ayer, específicamente con las llamadas VoLTE (Voz sobre LTE). Mi equipo tomó medidas inmediatas: cientos de nuestros ingenieros trabajaron incansablemente junto a los proveedores y socios durante todo el día para resolver el problema desde el momento en que tuvimos conocimiento de él. Las conexiones de datos siguieron funcionando, al igual que nuestras llamadas no-VoLTE para muchos clientes, y servicios como FaceTime, iMessage, Google Meet, Google Duo, Zoom, Skype y otros permitieron a nuestros clientes mantenerse en contacto. Además, muchos clientes pudieron utilizar conexiones de voz con conmutación de circuitos y los clientes de la red de Sprint no se vieron afectados. VoLTE y el texto en todas las regiones se recuperaron por completo a las 10 p.m. PDT de anoche. Me alegra decir que la red está plenamente operativa… y estamos trabajando día a día para que siga siendo así.
Nuestros ingenieros trabajaron durante toda la noche para entender la causa raíz de los problemas de ayer, abordarla y evitar que se repita. Se sabe que el evento desencadenante es un fallo del circuito de fibra alquilada de un proveedor externo en el sureste. Esto es algo que ocurre en todas las redes de telefonía móvil, por lo que hemos trabajado con nuestros proveedores para crear redundancia y resistencia para asegurarnos de que este tipo de fallos en los circuitos no afecten a los clientes. Esta redundancia nos falló y provocó una situación de sobrecarga que luego se vio agravada por otros factores. Esta sobrecarga dio lugar a una tormenta de tráfico IP que se extendió desde el sureste hasta crear importantes problemas de capacidad en la red central IMS (Subsistema multimedia IP) que soporta las llamadas VoLTE.
Hemos trabajado con nuestros proveedores de IMS (Subsistema multimedia IP) e IP para añadir salvaguardas adicionales permanentes para evitar que esto vuelva a ocurrir y seguimos trabajando para determinar la causa del fallo de sobrecarga inicial.
Así que quiero disculparme personalmente por cualquier inconveniente que hayamos creado ayer y agradecerles su paciencia mientras trabajamos para resolver la situación.
Neville Ray
Presidente de Tecnología de T-Mobile
No está claro qué circuito de fibra de un proveedor externo falló. El lunes se informó de que Level 3, uno de los principales proveedores de red troncal de Internet del mundo, estaba experimentando una interrupción, pero un portavoz dijo a TechCrunch lo contrario.
El jueves, Ray restó importancia a la interrupción durante una presentación en el Foro Virtual 5G de Wells Fargo, afirmando que sólo el 20 por ciento de las llamadas de T-Mobile se cayeron porque los clientes pudieron completar otras llamadas utilizando datos móviles en su lugar.
«Todo se desencadenó por un corte de fibra de jardín común», dijo, añadiendo que «expuso un problema en una configuración de problemas de enrutamiento que llevó a una de estas inundaciones IP a través de la red», que a su vez «creó todo tipo de medidas de capacidad y protección en la arquitectura del núcleo».
«Lo que hicimos para superar eso fue añadir mucha capacidad sobre la marcha, después de averiguar dónde existían realmente los problemas», dijo Ray.
«Tenemos que hacerlo mejor», dijo Ray, sin ofrecer ninguna sugerencia particular sobre cómo T-Mobile podría prevenir un problema de este tipo en el futuro. Calificó la interrupción como una coincidencia: «Fue una serie de acontecimientos que, en muchos sentidos, desde la interrupción de la fibra, a la red de enrutamiento, a la vulnerabilidad del núcleo, todas esas cosas sucedieron simultáneamente y esa es la interrupción que vimos».
«Nunca digas nunca, las interrupciones son siempre parte de ser una empresa de tecnología, pero nos disculpamos y estamos en un lugar mejor».