Ha kíváncsiak voltak, mi okozhatta az Egyesült Államok három nagy mobilszolgáltatójának egyikének kiesését a hívások és szöveges üzenetek kézbesítésében – és azt egy egész napra -, a T-Mobile most részleges választ adott a hétfői kiterjedt országos kiesésre.
A vállalat kedden késő este bocsánatkérést adott ki, amelyet alább teljes egészében elolvashat, csütörtökön pedig Neville Ray műszaki igazgató további magyarázatot adott, amelyet a bejegyzés alján talál.
A rövid verzió, ha jól olvassuk: egy üvegszálas áramkör meghibásodott, és a tartalék áramköre is meghibásodott, ami láncreakciót okozott, ami annyira megterhelte a hálózatot, hogy sok hívás és sms nem jutott át.
A hosszabb verzió:
June 16th, 2020 6:23pm PST
Update on T-Mobile Voice and Text Performance
Minden nap látjuk, hogy a technológia milyen fontos szerepet játszik abban, hogy kapcsolatban maradjunk, és tudjuk, hogy a T-Mobile ügyfelei a hálózatunkra támaszkodnak, hogy biztosítsák a kapcsolatot a családdal, szeretteikkel és a szolgáltatókkal. Ezt a felelősséget a csapatom nagyon komolyan veszi, és ez a legfőbb prioritásunk. Tegnap nem feleltünk meg a saját kiválóságunk mércéjének.
Sok ügyfelünk tapasztalt tegnap hang- és szöveges üzenetekkel kapcsolatos problémát, különösen a VoLTE (Voice over LTE) hívásoknál. Csapatom azonnal intézkedett – mérnökeink százai fáradhatatlanul dolgoztak a nap folyamán a beszállítókkal és partnerekkel együtt, hogy megoldják a problémát attól a perctől kezdve, hogy tudomást szereztünk róla. Az adatkapcsolatok továbbra is működtek, ahogy a VoLTE nélküli hívások is sok ügyfelünk számára, és az olyan szolgáltatások, mint a FaceTime, az iMessage, a Google Meet, a Google Duo, a Zoom, a Skype és mások lehetővé tették ügyfeleink számára, hogy kapcsolatban maradjanak. Emellett sok ügyfél használhatta az áramkör-kapcsolt hangkapcsolatokat, és a Sprint hálózatán lévő ügyfeleket ez nem érintette. A VoLTE és a szöveges üzenetek minden régióban teljesen helyreálltak tegnap este 22 órára PDT idő szerint. Örömmel mondhatom, hogy a hálózat teljes mértékben működőképes… és nap mint nap azon dolgozunk, hogy ez így is maradjon.
Mérnökeink egész éjszaka azon dolgoztak, hogy megértsék a tegnapi problémák kiváltó okát, kezeljék azokat, és megakadályozzák, hogy újra előforduljanak. A kiváltó eseményről ismert, hogy egy bérelt szálas áramkör meghibásodása volt egy délkeleti harmadik fél szolgáltatótól. Ez minden mobilhálózatban előfordul, ezért a beszállítóinkkal együttműködve redundanciát és rugalmasságot építettünk ki annak érdekében, hogy az ilyen típusú áramköri hibák ne érintsék az ügyfeleket. Ez a redundancia cserbenhagyott minket, és túlterhelési helyzetet eredményezett, amelyet aztán más tényezők is súlyosbítottak. Ez a túlterhelés IP forgalmi vihart eredményezett, amely délkeletről terjedt el, és jelentős kapacitásproblémákat okozott a VoLTE-hívásokat támogató IMS (IP multimédia alrendszer) törzshálózatban.
Munkát végeztünk az IMS (IP multimédia alrendszer) és IP szállítóinkkal, hogy állandó további biztosítékokat adjunk hozzá, hogy ez ne ismétlődhessen meg, és továbbra is dolgozunk a kezdeti túlterhelési hiba okának meghatározásán.
Szóval, személyesen szeretnék elnézést kérni a tegnapi kellemetlenségekért, és köszönöm a türelmüket, amíg a helyzet megoldása érdekében dolgoztunk.”
Neville Ray
T-Mobile Technológiai Elnök
Nem egyértelmű, hogy melyik harmadik fél szolgáltató üvegszálas áramköre hibásodott meg. Hétfőn volt egy jelentés, miszerint a Level 3, a világ egyik legnagyobb internetes gerinchálózati szolgáltatója is kiesett, de egy szóvivő másként nyilatkozott a TechCrunchnak.
Csütörtökön Ray a Wells Fargo Virtual 5G Forumon tartott előadásán lekicsinyelte a kiesést, azt állítva, hogy a T-Mobile hívásainak csak 20 százaléka esett ki, mert az ügyfelek helyette mobiladatokkal tudtak befejezni más hívásokat.
“Az egészet egy közös kerti szál kiesése váltotta ki” – mondta, hozzátéve, hogy ez “feltárt egy problémát egy útválasztási kérdés konfigurációjában, ami egy ilyen IP-áradathoz vezetett a hálózaton keresztül”, ami viszont “mindenféle kapacitást és védelmi intézkedést hozott létre a magarchitektúrában”.
“Amit tettünk, hogy ezt a helyzetet átvészeljük, az az volt, hogy menet közben rengeteg kapacitást adtunk hozzá, miután rájöttünk, hol voltak valójában a problémák” – mondta Ray.
“Jobban kell csinálnunk” – mondta Ray, anélkül, hogy konkrét javaslatokat tett volna arra vonatkozóan, hogy a T-Mobile a jövőben hogyan tudná megelőzni az ilyen problémákat. Az üzemzavart véletlen egybeesésnek minősítette: “
“Soha ne mondd, hogy soha, az üzemzavarok mindig részei egy technológiai vállalatnak, de elnézést kérünk, és már jobb helyen vagyunk.”