T-Mobile forklarer, hvorfor netværket gik hårdt ned og hævder, at kun en femtedel af opkaldene gik tabt

author
4 minutes, 9 seconds Read

Hvis du har undret dig over, hvad der kunne slå en af USA’s tre store mobilselskaber ud af stand til at levere opkald og sms’er – og holde det sådan i det meste af en hel dag – har T-Mobile nu et delvist svar, der vedrører det omfattende landsdækkende nedbrud i mandags.

Selskabet udsendte sent tirsdag en undskyldning, som du kan læse i sin helhed nedenfor, og torsdag gav CTO Neville Ray en yderligere forklaring, som du finder nederst i dette indlæg.

Den korte version, hvis vi læser dette korrekt: Et fiberoptisk kredsløb svigtede, og dets backup-kredsløb svigtede også, hvilket forårsagede en kædereaktion, der belastede netværket i en sådan grad, at mange opkald og sms’er ikke kunne komme igennem.

Den længere version:

16. juni 2020 18:23pm PST

opdatering af T-Mobile Voice and Text Performance

Ved hver dag ser vi den afgørende rolle, som teknologien spiller for at holde os forbundet, og vi ved, at T-Mobile-kunder er afhængige af vores netværk for at sikre, at de har forbindelse med familie, kære og tjenesteudbydere. Dette er et ansvar, som mit team tager meget alvorligt, og det er vores højeste prioritet. I går levede vi ikke op til vores egen barriere for ekspertise.

Mange af vores kunder oplevede et problem med tale og sms’er i går, især med VoLTE-opkald (Voice over LTE). Mit team greb straks ind – hundredvis af vores ingeniører arbejdede utrætteligt sammen med leverandører og partnere i løbet af dagen for at løse problemet fra det øjeblik, vi blev opmærksomme på det. Dataforbindelser fungerede fortsat, og det samme gjorde vores ikke-VoLTE-opkald for mange kunder, og tjenester som FaceTime, iMessage, Google Meet, Google Duo, Zoom, Skype og andre gjorde det muligt for vores kunder at holde kontakten. Desuden var mange kunder i stand til at bruge kredsløbskoblede taleforbindelser, og kunder på Sprint-netværket var ikke berørt. VoLTE og tekst i alle regioner var fuldt genoprettet kl. 22.00 PDT i aftes. Jeg er glad for at kunne sige, at netværket er fuldt funktionsdygtigt … og vi arbejder dag ud og dag ind for at holde det sådan.

Vores ingeniører arbejdede natten igennem for at forstå den grundlæggende årsag til problemerne i går, løse dem og forhindre, at det sker igen. Den udløsende begivenhed er kendt for at være en fejl i et leaset fiberkredsløb fra en tredjepartsleverandør i det sydøstlige område. Det er noget, der sker på alle mobilnetværk, så vi har arbejdet sammen med vores leverandører om at opbygge redundans og robusthed for at sikre, at disse typer af kredsløbsfejl ikke påvirker kunderne. Denne redundans svigtede os og resulterede i en overbelastningssituation, som derefter blev forværret af andre faktorer. Denne overbelastning resulterede i en IP-trafikstorm, der spredte sig fra det sydøstlige område og skabte betydelige kapacitetsproblemer på tværs af IMS-kernenettet (IP Multimedia Subsystem), som understøtter VoLTE-opkald.

Vi har arbejdet sammen med vores IMS- og IP-leverandører for at tilføje permanente ekstra sikkerhedsforanstaltninger for at forhindre, at dette sker igen, og vi arbejder fortsat på at finde årsagen til den oprindelige overbelastningsfejl.

Så jeg vil gerne personligt undskylde for enhver ulejlighed, som vi skabte i går, og takke jer for jeres tålmodighed, mens vi arbejdede os igennem situationen mod en løsning.

Neville Ray

T-Mobile President of Technology

Det er ikke klart, hvilken tredjepartsleverandørs fiberkredsløb, der fejlede. Der var en rapport i mandags om, at Level 3, en af verdens største internetbackbone-udbydere, oplevede en afbrydelse, men en talsmand fortalte TechCrunch noget andet.

Torsdag nedtonede Ray afbrydelsen under en præsentation på Wells Fargo Virtual 5G Forum og hævdede, at kun 20 procent af T-Mobiles opkald blev tabt, fordi kunderne var i stand til at gennemføre andre opkald ved hjælp af mobildata i stedet.

“Det hele blev udløst af en almindelig havefiberafbrydelse”, sagde han og tilføjede, at det “udsatte et problem i en routing-problemkonfiguration, som førte til en af disse IP-floder på tværs af netværket”, hvilket igen “skabte alle mulige kapacitets- og beskyttelsesforanstaltninger i kernearkitekturen”.

“Det, vi gjorde for at komme igennem det, var at tilføje en masse kapacitet i farten, efter at vi havde fundet ud af, hvor problemerne virkelig eksisterede”, sagde Ray.

“Vi må gøre det bedre”, sagde Ray uden at komme med nogen særlige forslag til, hvordan T-Mobile kan forhindre et sådant problem i fremtiden. Han karakteriserede afbrydelsen som en tilfældighed: “Det var en række begivenheder, der på mange måder, fra fiberafbrydelsen, til routing-netværket, til kernesårbarheden, alle disse ting skete samtidig, og det var den afbrydelse, vi oplevede.”

“Man skal aldrig sige aldrig, afbrydelser er altid en del af at være en teknologivirksomhed, men vi undskylder, og vi er på et bedre sted.”

Similar Posts

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.