Wenn Sie sich gefragt haben, was die Fähigkeit eines der drei großen Mobilfunkanbieter der Vereinigten Staaten, Anrufe und Textnachrichten zu übermitteln, lahm legen könnte – und zwar fast einen ganzen Tag lang -, hat T-Mobile jetzt eine teilweise Antwort, die sich auf den umfangreichen landesweiten Ausfall am Montag bezieht.
Das Unternehmen hat am späten Dienstag eine Entschuldigung veröffentlicht, die Sie unten vollständig lesen können, und am Donnerstag hat CTO Neville Ray eine weitere Erklärung abgegeben, die Sie am Ende dieses Beitrags finden.
Die Kurzversion, wenn wir das richtig lesen: ein Glasfaserkreislauf ist ausgefallen, und der Ersatzkreislauf ist ebenfalls ausgefallen, was eine Kettenreaktion ausgelöst hat, die das Netzwerk so stark belastet hat, dass viele Anrufe und Texte nicht durchkommen konnten.
Die längere Version:
June 16th, 2020 6:23pm PST
Update on T-Mobile Voice and Text Performance
Täglich sehen wir, welch wichtige Rolle die Technologie dabei spielt, uns in Verbindung zu halten, und wir wissen, dass T-Mobile Kunden sich auf unser Netz verlassen, um sicherzustellen, dass sie mit ihrer Familie, ihren Lieben und ihren Dienstanbietern verbunden sind. Diese Verantwortung nimmt mein Team sehr ernst und hat für uns höchste Priorität. Gestern haben wir unseren eigenen Ansprüchen nicht genügt.
Viele unserer Kunden hatten gestern ein Sprach- und Textproblem, insbesondere bei VoLTE-Anrufen (Voice over LTE). Mein Team hat sofort gehandelt – Hunderte unserer Techniker haben den ganzen Tag über unermüdlich mit Anbietern und Partnern zusammengearbeitet, um das Problem zu beheben, sobald wir davon erfahren haben. Datenverbindungen funktionierten weiterhin, ebenso wie unsere Nicht-VoLTE-Anrufe für viele Kunden und Dienste wie FaceTime, iMessage, Google Meet, Google Duo, Zoom, Skype und andere ermöglichten es unseren Kunden, in Kontakt zu bleiben. Darüber hinaus konnten viele Kunden leitungsvermittelte Sprachverbindungen nutzen, und Kunden im Sprint-Netz waren davon nicht betroffen. VoLTE und Text in allen Regionen waren gestern Abend um 22 Uhr PDT vollständig wiederhergestellt. Ich freue mich, sagen zu können, dass das Netzwerk voll funktionsfähig ist… und wir arbeiten Tag für Tag daran, dass dies so bleibt.
Unsere Ingenieure haben die ganze Nacht hindurch gearbeitet, um die Ursache der gestrigen Probleme zu verstehen, sie zu beheben und zu verhindern, dass sie sich wiederholen. Das auslösende Ereignis ist bekanntlich ein Ausfall einer gemieteten Glasfaserleitung eines Drittanbieters im Südosten. Da dies in jedem Mobilfunknetz vorkommt, haben wir gemeinsam mit unseren Anbietern für Redundanz und Ausfallsicherheit gesorgt, um sicherzustellen, dass derartige Leitungsausfälle nicht zu Lasten der Kunden gehen. Diese Redundanz ließ uns im Stich und führte zu einer Überlastungssituation, die durch andere Faktoren noch verstärkt wurde. Diese Überlastung führte zu einem IP-Verkehrssturm, der sich vom Südosten aus ausbreitete und im gesamten IMS-Kernnetz (IP Multimedia Subsystem), das VoLTE-Anrufe unterstützt, zu erheblichen Kapazitätsproblemen führte.
Wir haben mit unseren IMS- (IP Multimedia Subsystem) und IP-Anbietern zusammengearbeitet, um dauerhafte zusätzliche Sicherheitsvorkehrungen zu treffen, damit sich so etwas nicht wiederholt, und wir arbeiten weiter an der Ermittlung der Ursache für den ursprünglichen Überlastungsausfall.
Daher möchte ich mich persönlich für die Unannehmlichkeiten entschuldigen, die wir gestern verursacht haben, und Ihnen für Ihre Geduld danken, während wir an einer Lösung der Situation gearbeitet haben.
Neville Ray
T-Mobile President of Technology
Es ist nicht klar, welche Glasfaserleitung eines Drittanbieters ausgefallen ist. Am Montag wurde berichtet, dass Level 3, einer der weltweit größten Internet-Backbone-Anbieter, einen Ausfall hatte, aber ein Sprecher sagte TechCrunch etwas anderes.
Am Donnerstag spielte Ray den Ausfall während einer Präsentation auf dem Wells Fargo Virtual 5G Forum herunter und behauptete, dass nur 20 Prozent der Anrufe von T-Mobile abgebrochen wurden, weil die Kunden in der Lage waren, andere Anrufe stattdessen mit mobilen Daten zu tätigen.
„Ausgelöst wurde das Ganze durch einen Ausfall der Common Garden-Glasfaser“, sagte er und fügte hinzu, dass dadurch „ein Problem in einer Routing-Problemkonfiguration aufgedeckt wurde, das zu einer dieser IP-Fluten im gesamten Netzwerk führte“, was wiederum „alle Arten von Kapazitäts- und Schutzmaßnahmen in der Kernarchitektur“ zur Folge hatte.
„Was wir getan haben, um das zu überwinden, war, eine Menge Kapazität im Handumdrehen hinzuzufügen, nachdem wir herausgefunden hatten, wo die Probleme wirklich existierten“, sagte Ray.
„Wir müssen es besser machen“, sagte Ray, ohne konkrete Vorschläge zu machen, wie T-Mobile ein solches Problem in Zukunft verhindern könnte. Er bezeichnete den Ausfall als einen Zufall: „Es war eine Reihe von Ereignissen, die in vielerlei Hinsicht, vom Glasfaserausfall über das Routing-Netzwerk bis hin zur Kernschwachstelle, alle gleichzeitig stattfanden, und das ist der Ausfall, den wir gesehen haben.“
„Sag niemals nie, Ausfälle sind immer Teil eines Technologieunternehmens, aber wir entschuldigen uns und wir sind an einem besseren Ort.“