Se vi state chiedendo cosa potrebbe mettere fuori uso la capacità di uno dei tre grandi vettori cellulari degli Stati Uniti di consegnare chiamate e messaggi di testo – e tenerlo in quel modo per la maggior parte di un giorno intero – T-Mobile ha ora una risposta parziale che riguarda la sua vasta interruzione nazionale lunedì.
L’azienda ha rilasciato delle scuse martedì in ritardo che potete leggere nella sua interezza qui sotto, e giovedì, il CTO Neville Ray ha fornito un’ulteriore spiegazione che troverete in fondo a questo post.
La versione breve, se stiamo leggendo correttamente: un circuito in fibra ottica è fallito, e il suo circuito di backup anche fallito, che ha causato una reazione a catena che ha teso la rete al punto che molte chiamate e testi non potevano farlo attraverso.
La versione più lunga:
June 16th, 2020 6:23pm PST
Update on T-Mobile Voice and Text Performance
Ogni giorno vediamo il ruolo vitale della tecnologia nel tenerci connessi, e sappiamo che i clienti di T-Mobile si affidano alla nostra rete per garantire loro la connessione con la famiglia, le persone care e i fornitori di servizi. Questa è una responsabilità che il mio team prende molto seriamente ed è la nostra massima priorità. Ieri, non abbiamo soddisfatto la nostra barra di eccellenza.
Molti dei nostri clienti hanno sperimentato un problema di voce e testo ieri, in particolare con VoLTE (Voice over LTE) chiamata. Il mio team ha intrapreso un’azione immediata – centinaia di nostri ingegneri hanno lavorato instancabilmente al fianco di fornitori e partner per tutto il giorno per risolvere il problema a partire dal momento in cui ne siamo venuti a conoscenza. Le connessioni dati hanno continuato a funzionare, così come le nostre chiamate non VoLTE per molti clienti e servizi come FaceTime, iMessage, Google Meet, Google Duo, Zoom, Skype e altri hanno permesso ai nostri clienti di rimanere in contatto. Inoltre, molti clienti sono stati in grado di utilizzare connessioni vocali a commutazione di circuito e i clienti sulla rete Sprint non sono stati influenzati. VoLTE e testo in tutte le regioni sono stati completamente recuperati entro le 10 p.m. PDT ieri sera. Sono felice di dire che la rete è pienamente operativa… e stiamo lavorando giorno dopo giorno per mantenerla tale.
I nostri ingegneri hanno lavorato tutta la notte per capire la causa principale dei problemi di ieri, affrontarla ed evitare che si ripeta. L’evento scatenante è noto per essere un guasto al circuito in fibra affittato da un provider di terze parti nel sud-est. Questo è qualcosa che accade su ogni rete mobile, quindi abbiamo lavorato con i nostri fornitori per costruire ridondanza e resilienza per assicurarci che questi tipi di guasti ai circuiti non colpiscano i clienti. Questa ridondanza ci ha deluso e ha portato a una situazione di sovraccarico che è stata poi aggravata da altri fattori. Questo sovraccarico ha provocato una tempesta di traffico IP che si è diffusa dal sud-est per creare problemi significativi di capacità attraverso la rete centrale IMS (IP multimedia Subsystem) che supporta le chiamate VoLTE.
Abbiamo lavorato con i nostri fornitori IMS (IP Multimedia Subsystem) e IP per aggiungere ulteriori salvaguardie permanenti per evitare che questo accada di nuovo e stiamo continuando a lavorare per determinare la causa del fallimento iniziale del sovraccarico.
Così, voglio scusarmi personalmente per qualsiasi inconveniente che abbiamo creato ieri e ringraziarvi per la vostra pazienza mentre lavoravamo attraverso la situazione verso la risoluzione.
Neville Ray
T-Mobile Presidente della Tecnologia
Non è chiaro quale circuito in fibra del fornitore terzo sia fallito. C’è stato un rapporto lunedì che Level 3, uno dei principali fornitori di dorsale internet del mondo, stava vivendo un’interruzione, ma un portavoce ha detto a TechCrunch diversamente.
Giovedì, Ray ha minimizzato l’interruzione durante una presentazione al Wells Fargo Virtual 5G Forum, sostenendo che solo il 20 per cento delle chiamate di T-Mobile sono state eliminate perché i clienti sono stati in grado di completare altre chiamate utilizzando invece i dati mobili.
“L’intera cosa è stata innescata da un’interruzione della fibra del giardino comune”, ha detto, aggiungendo che “ha esposto un problema in una configurazione del problema di routing che ha portato a uno di questi diluvi IP attraverso la rete”, che a sua volta “ha creato tutti i tipi di capacità e misure di protezione nell’architettura del nucleo”.
“Quello che abbiamo fatto per superare questo è stato quello di aggiungere un sacco di capacità al volo, dopo aver capito dove i problemi esistevano veramente”, ha detto Ray.
“Dobbiamo fare meglio”, ha detto Ray, senza offrire alcun suggerimento particolare su come T-Mobile potrebbe prevenire un tale problema in futuro. Ha caratterizzato l’interruzione come una coincidenza: “È stata una serie di eventi che, in molti modi, dal guasto della fibra, alla rete di routing, alla vulnerabilità del nucleo, tutte queste cose sono accadute contemporaneamente e questo è il guasto che abbiamo visto.”
“Mai dire mai, i guasti sono sempre parte di essere una società tecnologica, ma ci scusiamo e siamo in un posto migliore.”