Se você estava se perguntando o que poderia derrubar a capacidade de uma das três grandes operadoras de celular dos Estados Unidos de entregar chamadas e mensagens de texto – e mantê-la assim durante a maior parte de um dia inteiro – a T-Mobile agora tem uma resposta parcial que diz respeito à sua extensa parada nacional na segunda-feira.
A empresa emitiu um pedido de desculpas na terça-feira que você pode ler na íntegra abaixo, e na quinta-feira, CTO Neville Ray forneceu uma explicação adicional que você vai encontrar no final deste post.
A versão curta, se estamos lendo isso corretamente: um circuito de fibra ótica falhou, e seu circuito de backup também falhou, o que causou uma reação em cadeia que tensionou a rede ao ponto de muitas chamadas e textos não conseguirem passar.
A versão mais longa:
Junho 16, 2020 18:23 PST
Atualização do desempenho de voz e texto da T-Mobile
Todos os dias vemos o papel vital que a tecnologia desempenha para nos manter conectados, e sabemos que os clientes da T-Mobile confiam na nossa rede para garantir que eles tenham conexões com a família, entes queridos e provedores de serviços. Esta é uma responsabilidade que a minha equipa leva muito a sério e é a nossa maior prioridade. Ontem, não encontrámos o nosso próprio bar por excelência.
Muitos dos nossos clientes tiveram ontem um problema de voz e texto, especificamente com as chamadas VoLTE (Voice over LTE). A minha equipa tomou medidas imediatas – centenas dos nossos engenheiros trabalharam incansavelmente ao lado de fornecedores e parceiros ao longo do dia para resolver o problema a partir do momento em que tomámos conhecimento do mesmo. As ligações de dados continuaram a funcionar, assim como as nossas chamadas não VoLTE para muitos clientes e serviços como FaceTime, iMessage, Google Meet, Google Duo, Zoom, Skype e outros permitiram que os nossos clientes se mantivessem em contacto. Além disso, muitos clientes puderam utilizar ligações de voz comutadas em circuito e os clientes da rede Sprint não foram afectados. VoLTE e texto em todas as regiões foram totalmente recuperados até às 22h PDT da noite passada. Estou feliz em dizer que a rede está totalmente operacional… e estamos trabalhando dia após dia para mantê-la assim.
Nossos engenheiros trabalharam durante a noite para entender a causa raiz dos problemas de ontem, resolvê-los e evitar que acontecesse novamente. O evento de disparo é conhecido por ser uma falha no circuito de fibra alugado por um terceiro fornecedor no Sudeste. Isso é algo que acontece em todas as redes móveis, por isso trabalhamos com nossos fornecedores para construir redundância e resiliência para garantir que esses tipos de falhas de circuito não afetem os clientes. Essa redundância nos falhou e resultou em uma situação de sobrecarga que foi então agravada por outros fatores. Essa sobrecarga resultou em uma tempestade de tráfego IP que se espalhou da Sudeste para criar problemas significativos de capacidade na rede central IMS (IP Multimedia Subsystem) que suporta chamadas VoLTE.
Trabalhamos com nosso IMS (IP Multimedia Subsystem) e fornecedores de IP para adicionar salvaguardas adicionais permanentes para evitar que isso aconteça novamente e continuamos a trabalhar para determinar a causa da falha inicial de sobrecarga.
Então, quero pedir desculpas pessoalmente por qualquer inconveniente que criamos ontem e obrigado pela sua paciência enquanto trabalhamos na situação para a resolução.
Neville Ray
T-Mobile President of Technology
Não está claro qual o circuito de fibra de terceiros que falhou. Houve um relatório na segunda-feira que o Nível 3, um dos maiores provedores de backbone de internet do mundo, estava passando por uma falha, mas um porta-voz disse à TechCrunch de maneira diferente.
Na quinta-feira, Ray minimizou a falha durante uma apresentação no Fórum Virtual 5G da Wells Fargo, alegando que apenas 20% das chamadas da T-Mobile foram descartadas porque os clientes puderam completar outras chamadas usando dados móveis em seu lugar.
“A coisa toda foi desencadeada por uma falha comum de fibra de jardim”, disse ele, acrescentando que “expôs um problema em uma configuração de problema de roteamento que levou a uma dessas inundações IP através da rede”, que por sua vez “criou todos os tipos de capacidade e medidas de proteção na arquitetura do núcleo”.
“O que fizemos para superar isso foi adicionar muita capacidade na hora, depois que descobrimos onde os problemas realmente existiam”, disse Ray.
“Temos que fazer melhor”, disse Ray, sem oferecer nenhuma sugestão em particular sobre como a T-Mobile poderia evitar tal problema no futuro”. Ele caracterizou a interrupção como uma coincidência: “Foi uma série de eventos que, de muitas maneiras, desde a falta de fibra, à rede de roteamento, à vulnerabilidade do núcleo, todas essas coisas aconteceram simultaneamente e essa é a falta de energia que vimos.”
“Nunca diga nunca, as interrupções são sempre parte de ser uma empresa de tecnologia, mas pedimos desculpas e estamos em um lugar melhor.”