Si vous vous êtes demandé ce qui pouvait mettre hors service la capacité d’un des trois grands opérateurs cellulaires des États-Unis à livrer des appels et des messages texte – et le garder ainsi pendant la majeure partie d’une journée entière – T-Mobile a maintenant une réponse partielle qui se rapporte à sa panne nationale étendue lundi.
La société a publié des excuses tard mardi que vous pouvez lire dans son intégralité ci-dessous, et jeudi, le CTO Neville Ray a fourni une explication supplémentaire que vous trouverez au bas de ce post.
La version courte, si nous lisons bien : un circuit de fibre optique est tombé en panne, et son circuit de secours est également tombé en panne, ce qui a provoqué une réaction en chaîne qui a sollicité le réseau au point que de nombreux appels et textes n’ont pas pu passer.
La version longue:
16 juin 2020 18h23 PST
Mise à jour des performances vocales et textuelles de T-Mobile
Chaque jour, nous constatons le rôle vital que joue la technologie pour nous garder connectés, et nous savons que les clients de T-Mobile comptent sur notre réseau pour s’assurer qu’ils ont des connexions avec leur famille, leurs proches et leurs fournisseurs de services. C’est une responsabilité que mon équipe prend très au sérieux et c’est notre plus grande priorité. Hier, nous n’avons pas atteint notre propre barre d’excellence.
Plusieurs de nos clients ont rencontré un problème de voix et de texte hier, en particulier avec les appels VoLTE (Voice over LTE). Mon équipe a pris des mesures immédiates – des centaines de nos ingénieurs ont travaillé sans relâche aux côtés des fournisseurs et des partenaires tout au long de la journée pour résoudre le problème dès la minute où nous en avons eu connaissance. Les connexions de données ont continué à fonctionner, tout comme les appels non VoLTE pour de nombreux clients, et des services comme FaceTime, iMessage, Google Meet, Google Duo, Zoom, Skype et d’autres ont permis à nos clients de rester en contact. De plus, de nombreux clients ont pu utiliser des connexions vocales à commutation de circuits et les clients du réseau Sprint n’ont pas été affectés. La VoLTE et le texte dans toutes les régions ont été entièrement rétablis à 22 heures PDT la nuit dernière. Je suis heureux de dire que le réseau est pleinement opérationnel… et nous travaillons jour après jour pour qu’il en soit ainsi.
Nos ingénieurs ont travaillé toute la nuit pour comprendre la cause profonde des problèmes d’hier, la résoudre et empêcher qu’elle ne se reproduise. L’événement déclencheur est connu pour être une défaillance du circuit de fibre louée d’un fournisseur tiers dans le sud-est. C’est un phénomène qui se produit sur tous les réseaux mobiles. Nous avons donc travaillé avec nos fournisseurs pour mettre en place une redondance et une résilience afin de nous assurer que ces types de défaillances de circuit n’affectent pas les clients. Cette redondance nous a fait défaut et a entraîné une situation de surcharge qui a ensuite été aggravée par d’autres facteurs. Cette surcharge a entraîné une tempête de trafic IP qui s’est propagée à partir du Sud-Est pour créer des problèmes de capacité importants dans le réseau central IMS (sous-système multimédia IP) qui prend en charge les appels VoLTE.
Nous avons travaillé avec nos fournisseurs IMS (sous-système multimédia IP) et IP pour ajouter des mesures de protection supplémentaires permanentes afin d’éviter que cela ne se reproduise et nous continuons à travailler pour déterminer la cause de la défaillance initiale de la surcharge.
Je tiens donc à m’excuser personnellement pour tout inconvénient que nous avons créé hier et je vous remercie de votre patience pendant que nous travaillions sur la situation en vue d’une résolution.
Neville Ray
Président de la technologie de T-Mobile
Il n’est pas clair quel circuit de fibre du fournisseur tiers a échoué. Il y avait un rapport lundi que Level 3, l’un des principaux fournisseurs de dorsale Internet dans le monde, connaissait une panne, mais un porte-parole a dit à TechCrunch qu’il en était autrement.
Jeudi, Ray a minimisé la panne lors d’une présentation au Wells Fargo Virtual 5G Forum, affirmant que seulement 20 pour cent des appels de T-Mobile ont été abandonnés parce que les clients ont pu compléter d’autres appels en utilisant des données mobiles à la place.
« Tout cela a été déclenché par une panne de fibre de jardin commune », a-t-il déclaré, ajoutant que cela « a exposé un problème dans une configuration de problème de routage qui a conduit à l’une de ces inondations IP à travers le réseau », ce qui a ensuite « créé toutes sortes de mesures de capacité et de protection dans l’architecture centrale ».
« Ce que nous avons fait pour en quelque sorte passer à travers cela a été d’ajouter beaucoup de capacité à la volée, après avoir compris où les problèmes existaient vraiment », a déclaré Ray.
« Nous devons faire mieux », a déclaré Ray, sans offrir de suggestions particulières sur la façon dont T-Mobile pourrait prévenir un tel problème à l’avenir. Il a qualifié la panne de coïncidence : « C’était une série d’événements qui, à bien des égards, de la panne de fibre, au réseau de routage, à la vulnérabilité du noyau, toutes ces choses se sont produites simultanément et c’est la panne que nous avons vue. »
« Il ne faut jamais dire jamais, les pannes font toujours partie d’être une entreprise technologique, mais nous nous excusons et nous sommes dans un meilleur endroit. »