Om du har undrat vad som kan slå ut en av USA:s tre stora mobiloperatörer förmåga att leverera samtal och textmeddelanden – och hålla det på det sättet för större delen av en hel dag – T-Mobile har nu en del av svaret som gäller dess omfattande landsomfattande avbrott i måndags.
Företaget utfärdade sent på tisdagen en ursäkt som du kan läsa i sin helhet nedan, och på torsdagen gav CTO Neville Ray en ytterligare förklaring som du hittar längst ner i det här inlägget.
Den korta versionen, om vi läser detta rätt: en fiberoptisk krets gick sönder, och dess reservkrets gick också sönder, vilket orsakade en kedjereaktion som belastade nätverket till den grad att många samtal och sms inte kunde komma fram.
Den längre versionen:
June 16th, 2020 6:23pm PST
Update on T-Mobile Voice and Text Performance
Varje dag ser vi den viktiga roll som tekniken spelar för att hålla oss uppkopplade, och vi vet att T-Mobile-kunder förlitar sig på vårt nätverk för att säkerställa att de har kontakt med familj, nära och kära och tjänsteleverantörer. Detta är ett ansvar som mitt team tar på stort allvar och är vår högsta prioritet. Igår uppfyllde vi inte vårt eget krav på excellens.
Många av våra kunder upplevde ett problem med röst- och textmeddelanden igår, särskilt med VoLTE-samtal (Voice over LTE). Mitt team vidtog omedelbara åtgärder – hundratals av våra ingenjörer arbetade outtröttligt tillsammans med leverantörer och partners under hela dagen för att lösa problemet så fort vi fick kännedom om det. Dataförbindelserna fortsatte att fungera, liksom våra icke-VoLTE-samtal för många kunder, och tjänster som FaceTime, iMessage, Google Meet, Google Duo, Zoom, Skype och andra gjorde det möjligt för våra kunder att hålla kontakten. Dessutom kunde många kunder använda kretsförmedlade röstförbindelser och kunder på Sprint-nätet påverkades inte. VoLTE och textmeddelanden i alla regioner var helt återställda vid 22.00 PDT i går kväll. Jag är glad att kunna säga att nätverket är fullt fungerande… och vi arbetar dag ut och dag in för att hålla det så.
Våra ingenjörer arbetade hela natten för att förstå grundorsaken till gårdagens problem, åtgärda den och förhindra att det händer igen. Den utlösande händelsen är känd för att vara ett fel på en hyrd fiberkrets från en tredjepartsleverantör i sydöstra delen av landet. Detta är något som händer i alla mobilnätverk, så vi har samarbetat med våra leverantörer för att bygga upp redundans och motståndskraft för att se till att den här typen av kretsfel inte drabbar kunderna. Denna redundans svek oss och resulterade i en överbelastningssituation som sedan förvärrades av andra faktorer. Denna överbelastning resulterade i en IP-trafikstorm som spred sig från sydöst och skapade betydande kapacitetsproblem i IMS-kärnnätet (IP Multimedia Subsystem) som stöder VoLTE-samtal.
Vi har samarbetat med våra IMS- (IP Multimedia Subsystem) och IP-leverantörer för att lägga till permanenta ytterligare skyddsåtgärder för att förhindra att detta händer igen, och vi fortsätter att arbeta för att fastställa orsaken till det ursprungliga överbelastningsfelet.
Så jag vill personligen be om ursäkt för alla olägenheter som vi skapade igår och tacka er för ert tålamod när vi arbetade oss igenom situationen mot en lösning.
Neville Ray
T-Mobile President of Technology
Det är inte klart vilken tredjepartsleverantörs fiberkrets som misslyckades. Det fanns en rapport i måndags om att Level 3, en av världens största leverantörer av internetbackbone, upplevde ett avbrott, men en talesperson berättade något annat för TechCrunch.
På torsdagen tonade Ray ner avbrottet under en presentation vid Wells Fargo Virtual 5G Forum och hävdade att endast 20 procent av T-Mobiles samtal tappades eftersom kunderna kunde slutföra andra samtal med hjälp av mobildata i stället.
”Det hela utlöstes av ett vanligt trädgårdsfiberavbrott”, sade han och tillade att det ”avslöjade ett problem i en routingproblematikkonfiguration som ledde till en av dessa IP-floder över nätverket”, vilket i sin tur ”skapade alla typer av kapacitets- och skyddsåtgärder i kärnarkitekturen”.
”Vad vi gjorde för att komma igenom detta var att lägga till mycket kapacitet i farten, efter att vi tagit reda på var problemen verkligen fanns”, sade Ray.
”Vi måste göra bättre ifrån oss”, sade Ray, utan att ge några särskilda förslag på hur T-Mobile skulle kunna förhindra ett sådant problem i framtiden. Han betecknade avbrottet som en tillfällighet: ”Det var en serie händelser som på många sätt, från fiberavbrottet, till routingnätverket och sårbarheten i kärnan, alla dessa saker hände samtidigt och det var det avbrottet vi såg.”
”Man ska aldrig säga aldrig, avbrott är alltid en del av att vara ett teknikföretag, men vi ber om ursäkt och vi är på en bättre plats.”