Jos olet miettinyt, mikä voisi tyrmätä yhden Yhdysvaltojen kolmen suuren matkapuhelinoperaattorin kyvyn toimittaa puheluita ja tekstiviestejä – ja pitää sen sellaisena suurimman osan kokonaista päivää – T-Mobilella on nyt osittainen vastaus, joka koskee sen maanantaista laajaa maanlaajuista katkosta.
Yhtiö julkaisi myöhään tiistaina anteeksipyynnön, jonka voit lukea kokonaisuudessaan alta, ja torstaina teknologiajohtaja Neville Ray antoi lisäselvityksen, jonka löydät tämän viestin lopusta.
Lyhyt versio, jos luemme tätä oikein: kuituoptinen piiri vikaantui, ja sen varapiiri vikaantui myös, mikä aiheutti ketjureaktion, joka rasitti verkkoa siinä määrin, että monet puhelut ja tekstiviestit eivät päässeet läpi.
Pitempi versio:
June 16th, 2020 6:23pm PST
Update on T-Mobile Voice and Text Performance
Joka päivä huomaamme, kuinka tärkeä rooli teknologialla on yhteyksien ylläpitämisessä, ja tiedämme, että T-Mobilen asiakkaat luottavat verkkoomme varmistaakseen yhteydet perheeseensä, läheisiinsä ja palveluntarjoajiin. Tiimini suhtautuu tähän vastuuseen erittäin vakavasti, ja se on meille ensiarvoisen tärkeää. Eilen emme täyttäneet omaa erinomaisuusrimaamme.
Monilla asiakkaillamme oli eilen puhe- ja tekstiviestiongelmia, erityisesti VoLTE-puheluissa (Voice over LTE). Tiimini ryhtyi välittömästi toimiin – sadat insinöörimme työskentelivät väsymättä myyjien ja kumppaneiden rinnalla koko päivän ratkaistakseen ongelman siitä hetkestä lähtien, kun saimme tietää siitä. Datayhteydet toimivat edelleen, samoin kuin muiden kuin VoLTE-puheluiden soittaminen monille asiakkaillemme, ja FaceTimen, iMessagen, Google Meetin, Google Duon, Zoomin, Skypen ja muiden palveluiden avulla asiakkaamme pystyivät pitämään yhteyttä. Lisäksi monet asiakkaat pystyivät käyttämään piirikytkentäisiä puheyhteyksiä, eikä tämä vaikuttanut Sprintin verkossa oleviin asiakkaisiin. VoLTE- ja tekstiviestipalvelut palautuivat kaikilla alueilla täysin eilen illalla klo 22.00 PDT. Olen iloinen voidessani sanoa, että verkko on täysin toimintakunnossa… ja työskentelemme päivästä toiseen pitääkseen sen sellaisena.
Insinöörimme työskentelivät läpi yön ymmärtääkseen eilisten ongelmien perimmäisen syyn, korjatakseen ne ja estääkseen niiden toistumisen. Laukaisevana tapahtumana tiedetään olevan kaakossa sijaitsevan kolmannen osapuolen palveluntarjoajan vuokratun kuitupiirin vika. Tällaista tapahtuu jokaisessa matkaviestinverkossa, joten olemme työskennelleet toimittajiemme kanssa rakentaaksemme redundanssia ja häiriönsietokykyä varmistaaksemme, etteivät tällaiset piiriviat vaikuta asiakkaisiin. Tämä redundanssi petti meidät ja johti ylikuormitustilanteeseen, jota muut tekijät vielä pahensivat. Tämä ylikuormitus johti IP-liikennemyrskyyn, joka levisi kaakosta ja aiheutti huomattavia kapasiteettiongelmia VoLTE-puheluita tukevassa IMS-runkoverkossa (IP-multimedia-alijärjestelmä).
Olemme työskennelleet IMS- (IP-multimedia-alijärjestelmä) ja IP-toimittajiemme kanssa lisätäksemme pysyviä lisävarmistuksia, jotta tämä ei toistuisi, ja jatkamme edelleen alkuperäisen ylikuormitushäiriön syyn selvittämistä.
Olen siis henkilökohtaisesti pahoillani eilen aiheuttamistamme hankaluuksista ja kiitän teitä kärsivällisyydestänne, kun työstimme tilannetta kohti ratkaisua.
Neville Ray
T-Mobilen teknologiajohtaja
Ei ole selvää, minkä kolmannen osapuolen palveluntarjoajan kuitupiiri epäonnistui. Maanantaina raportoitiin, että Level 3:lla, yhdellä maailman suurimmista internetin runkoverkon tarjoajista, olisi ollut katkos, mutta tiedottaja kertoi TechCrunchille toisin.
Torstaina Ray vähätteli katkosta Wells Fargo Virtual 5G Forum -tapahtumassa pitämässään esityksessä väittäen, että vain 20 prosenttia T-Mobilen puheluista keskeytyi, koska asiakkaat pystyivät sen sijaan hoitamaan muut puhelut loppuun mobiilidatan avulla.
”Koko jutun laukaisi yhteinen puutarhakuitu katkos”, hän sanoi ja lisäsi, että se ”paljasti ongelman reititysongelman konfiguraatiossa, joka johti yhteen näistä IP-tulvista verkon yli”, mikä puolestaan ”loi kaikenlaisia kapasiteetti- ja suojaustoimenpiteitä ydinarkkitehtuurissa”.
”Se, mitä teimme selvitäksemme siitä, oli lisätä paljon kapasiteettia lennossa sen jälkeen, kun olimme selvittäneet, missä ongelmat todella olivat”, Ray sanoi.
”Meidän on tehtävä paremmin”, Ray sanoi, eikä tarjonnut mitään erityisiä ehdotuksia siitä, miten T-Mobile voisi ehkäistä vastaavanlaisen ongelman tulevaisuudessa. Hän luonnehti katkosta sattumaksi: ”Se oli sarja tapahtumia, jotka monella tapaa, kuitukatkoksesta reititysverkkoon ja ytimen haavoittuvuuteen, kaikki nämä asiat tapahtuivat samanaikaisesti, ja se on katkos, jonka näimme.”
”Älä koskaan sano, ettei koskaan, katkokset ovat aina osa teknologiayrityksen toimintaa, mutta pyydämme anteeksi ja olemme paremmassa paikassa.”