T-Mobile wyjaśnia, dlaczego jego sieć poszedł w dół ciężko, twierdzi, że tylko jedna piąta połączeń zostały utracone

author
4 minutes, 17 seconds Read

Jeśli zastanawialiście się, co może wybić jeden z trzech wielkich amerykańskich przewoźników komórkowych zdolność do dostarczania połączeń i wiadomości tekstowych – i utrzymać go w ten sposób przez większość całego dnia – T-Mobile ma teraz częściową odpowiedź, która odnosi się do jego rozległe ogólnokrajowe outage poniedziałek.

Firma wydała przeprosiny późno wtorek, że można przeczytać w całości poniżej, a w czwartek, CTO Neville Ray pod warunkiem dalszego wyjaśnienia można znaleźć na dole tego postu.

Krótka wersja, jeśli czytamy to poprawnie: światłowodowy obwód nie powiodło się, a jego obwód zapasowy również nie, co spowodowało reakcję łańcuchową, która nadwerężyła sieć do punktu, że wiele połączeń i tekstów nie mógł zrobić to przez.

Dłuższa wersja:

16 czerwca 2020 6:23pm PST

Update on T-Mobile Voice and Text Performance

Każdego dnia widzimy, jak istotną rolę odgrywa technologia w utrzymywaniu łączności i wiemy, że klienci T-Mobile polegają na naszej sieci, aby zapewnić sobie połączenia z rodziną, bliskimi i dostawcami usług. Jest to odpowiedzialność, którą mój zespół traktuje bardzo poważnie i która jest naszym najwyższym priorytetem. Wczoraj nie spełniliśmy naszej własnej poprzeczki doskonałości.

Wielu naszych klientów doświadczyło wczoraj problemu z połączeniami głosowymi i tekstowymi, a w szczególności z połączeniami VoLTE (Voice over LTE). Mój zespół podjął natychmiastowe działania – setki naszych inżynierów pracowało bez wytchnienia wraz z dostawcami i partnerami przez cały dzień, aby rozwiązać problem od momentu, w którym się o nim dowiedzieliśmy. Połączenia danych nadal działały, podobnie jak nasze połączenia telefoniczne bez LTE dla wielu klientów, a usługi takie jak FaceTime, iMessage, Google Meet, Google Duo, Zoom, Skype i inne pozwoliły naszym klientom pozostać w kontakcie. Dodatkowo, wielu klientów mogło korzystać z połączeń głosowych komutowanych, a klienci sieci Sprint pozostali nienaruszeni. VoLTE i tekst we wszystkich regionach zostały w pełni przywrócone do godziny 22:00 PDT wczoraj wieczorem. Z przyjemnością mogę powiedzieć, że sieć jest w pełni sprawna… i pracujemy dzień w dzień, aby tak pozostało.

Nasi inżynierowie pracowali przez całą noc, aby zrozumieć pierwotną przyczynę wczorajszych problemów, zająć się nią i zapobiec jej ponownemu wystąpieniu. Wiadomo, że przyczyną jest awaria dzierżawionego obwodu światłowodowego od zewnętrznego dostawcy w południowo-wschodniej części kraju. Jest to coś, co zdarza się w każdej sieci komórkowej, więc pracowaliśmy z naszymi dostawcami, aby zbudować redundancję i odporność, aby upewnić się, że tego typu awarie obwodów nie mają wpływu na klientów. Ta nadmiarowość zawiodła nas i doprowadziła do sytuacji przeciążenia, która następnie została spotęgowana przez inne czynniki. To przeciążenie spowodowało burzę w ruchu IP, która rozprzestrzeniła się z południowego wschodu, tworząc znaczące problemy z przepustowością w sieci rdzeniowej IMS (IP multimedia Subsystem), która obsługuje połączenia VoLTE.

Pracujemy z naszymi dostawcami IMS (IP Multimedia Subsystem) i IP, aby dodać stałe dodatkowe zabezpieczenia, aby zapobiec powtórzeniu się takiej sytuacji i nadal pracujemy nad ustaleniem przyczyny początkowej awarii przeciążenia.

Więc, chcę osobiście przeprosić za wszelkie niedogodności, które stworzyliśmy wczoraj i podziękować za cierpliwość, jak pracowaliśmy przez sytuację w kierunku rozwiązania.

Neville Ray

T-Mobile Prezes Technologii

Nie jest jasne, który obwód światłowodowy dostawcy trzeciego zawiódł. W poniedziałek pojawił się raport, że Level 3, jeden z głównych światowych dostawców szkieletu internetowego, doświadczył awarii, ale rzecznik powiedział TechCrunch inaczej.

W czwartek, Ray zbagatelizował awarię podczas prezentacji na Wells Fargo Virtual 5G Forum, twierdząc, że tylko 20 procent połączeń T-Mobile zostało porzuconych, ponieważ klienci byli w stanie zakończyć inne połączenia przy użyciu danych mobilnych zamiast.

„Cała rzecz została wywołana przez wspólny ogród fiber outage”, powiedział, dodając, że to „narażone problem w konfiguracji wydania routingu, który doprowadził do jednego z tych IP powodzi w całej sieci,” który z kolei „stworzył wszystkie rodzaje pojemności i środków ochrony w architekturze rdzenia”.

„Co zrobiliśmy, aby jakby przejść przez to było dodać dużo przepustowości w locie, po zorientowaliśmy się, gdzie problemy naprawdę istniały,” Ray.

„Musimy zrobić lepiej,” powiedział Ray, nie oferując żadnych konkretnych sugestii na temat tego, jak T-Mobile może zapobiec takim problemem w przyszłości. Scharakteryzował outage jako zbieg okoliczności: „To była seria wydarzeń, które, na wiele sposobów, od awarii światłowodu, do sieci routingu, do rdzenia podatności, wszystkie te rzeczy wydarzyły się jednocześnie i to jest awaria widzieliśmy.”

„Nigdy nie mów nigdy, awarie są zawsze częścią bycia firmą technologiczną, ale przepraszamy i jesteśmy w lepszym miejscu.”

.

Similar Posts

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.