Dacă v-ați întrebat ce ar putea să scoată din funcțiune capacitatea unuia dintre cei trei mari operatori de telefonie mobilă din Statele Unite de a furniza apeluri și mesaje text – și să o mențină în acest mod pentru cea mai mare parte a unei zile întregi – T-Mobile are acum un răspuns parțial care se referă la întreruperea sa extinsă la nivel național de luni.
Compania a emis scuze marți târziu, pe care le puteți citi în întregime mai jos, iar joi, CTO Neville Ray a oferit o explicație suplimentară pe care o veți găsi în partea de jos a acestei postări.
Versiunea scurtă, dacă citim corect: un circuit de fibră optică a cedat, iar circuitul de rezervă al acestuia a cedat și el, ceea ce a provocat o reacție în lanț care a tensionat rețeaua până la punctul în care multe apeluri și mesaje text nu au putut fi transmise.
Versiunea mai lungă:
16 iunie 2020, ora 18:23 PST
Update on T-Mobile Voice and Text Performance
În fiecare zi observăm rolul vital pe care îl joacă tehnologia pentru a ne menține conectați și știm că clienții T-Mobile se bazează pe rețeaua noastră pentru a se asigura că au conexiuni cu familia, cei dragi și furnizorii de servicii. Aceasta este o responsabilitate pe care echipa mea o ia foarte în serios și reprezintă cea mai mare prioritate a noastră. Ieri, nu ne-am atins propriul nostru standard de excelență.
Mulți dintre clienții noștri au întâmpinat ieri o problemă de voce și text, în special cu apelurile VoLTE (Voice over LTE). Echipa mea a luat măsuri imediate – sute dintre inginerii noștri au lucrat neobosit alături de furnizori și parteneri pe tot parcursul zilei pentru a rezolva problema începând din momentul în care am luat cunoștință de ea. Conexiunile de date au continuat să funcționeze, la fel ca și apelurile non-VoLTE pentru mulți clienți, iar servicii precum FaceTime, iMessage, Google Meet, Google Duo, Zoom, Skype și altele au permis clienților noștri să rămână în contact. În plus, mulți clienți au putut utiliza conexiuni de voce cu comutare de circuit, iar clienții din rețeaua Sprint nu au fost afectați. VoLTE și textul în toate regiunile au fost recuperate în totalitate până la ora 22:00 PDT noaptea trecută. Mă bucur să spun că rețeaua este pe deplin operațională… și lucrăm zi de zi pentru a o menține astfel.
Inginerii noștri au lucrat toată noaptea pentru a înțelege cauza principală a problemelor de ieri, pentru a le rezolva și pentru a preveni ca acestea să se repete. Se știe că evenimentul declanșator a fost o defecțiune a unui circuit de fibră închiriată de la un furnizor terț din sud-est. Acest lucru se întâmplă în toate rețelele de telefonie mobilă, așa că am lucrat cu furnizorii noștri pentru a crea redundanță și reziliență pentru a ne asigura că aceste tipuri de defecțiuni ale circuitelor nu afectează clienții. Această redundanță a dat greș și a dus la o situație de supraîncărcare care a fost apoi agravată de alți factori. Această supraîncărcare a dus la o furtună de trafic IP care s-a răspândit din sud-est pentru a crea probleme semnificative de capacitate în rețeaua centrală IMS (IP multimedia Subsystem) care suportă apelurile VoLTE.
Am lucrat cu furnizorii noștri de IMS (IP Multimedia Subsystem) și IP pentru a adăuga măsuri de protecție suplimentare permanente pentru a preveni ca acest lucru să se mai întâmple și continuăm să lucrăm la determinarea cauzei eșecului inițial de supraîncărcare.
Așadar, vreau să-mi cer scuze personal pentru orice neplăcere pe care am creat-o ieri și vă mulțumesc pentru răbdarea de care ați dat dovadă în timp ce am lucrat la rezolvarea situației.
Neville Ray
Președintele departamentului de tehnologie al T-Mobile
Nu este clar ce circuit de fibră optică al furnizorului terț a cedat. Luni a existat un raport potrivit căruia Level 3, unul dintre principalii furnizori de backbone de internet din lume, se confrunta cu o întrerupere, dar un purtător de cuvânt a declarat contrariul pentru TechCrunch.
Joi, Ray a minimalizat întreruperea în timpul unei prezentări la Forumul Virtual 5G al Wells Fargo, susținând că doar 20 la sută dintre apelurile T-Mobile au fost întrerupte, deoarece clienții au reușit să finalizeze alte apeluri folosind în schimb date mobile.
„Totul a fost declanșat de o întrerupere a fibrei din grădina comună”, a spus el, adăugând că aceasta „a expus o problemă în configurația unei probleme de rutare care a dus la una dintre aceste inundații IP în întreaga rețea”, care, la rândul său, „a creat tot felul de măsuri de capacitate și de protecție în arhitectura de bază”.
„Ceea ce am făcut pentru a trece peste asta a fost să adăugăm o mulțime de capacitate din mers, după ce ne-am dat seama unde existau cu adevărat problemele”, a spus Ray.
„Trebuie să ne descurcăm mai bine”, a spus Ray, fără a oferi vreo sugestie anume despre cum ar putea T-Mobile să prevină o astfel de problemă în viitor. El a caracterizat întreruperea ca fiind o coincidență: „A fost o serie de evenimente care, în multe feluri, de la întreruperea fibrei, la rețeaua de rutare, la vulnerabilitatea nucleului, toate aceste lucruri s-au întâmplat simultan și aceasta este întreruperea pe care am văzut-o.”
„Niciodată să nu spui niciodată, întreruperile fac întotdeauna parte din a fi o companie de tehnologie, dar ne cerem scuze și suntem într-un loc mai bun.”