米国の3大携帯電話会社の1つであるT-Mobileが、通話やテキストメッセージを配信する能力をどうして失い、丸1日の大半をその状態に維持できるのかと疑問に思っていたら、月曜日に全国規模で発生した大規模障害に関連する回答の一部が明らかになったとのことです。
同社は火曜日遅くに謝罪文を発表し、その全文は以下で読むことができます。木曜日には、CTO の Neville Ray が、この記事の下部にあるように、さらなる説明を提供しました。
正確に言うと、光ファイバー回路が故障し、そのバックアップ回路も故障したため、連鎖反応が起こり、多くの通話やテキストが通過できないほどネットワークに負担がかかったということです。
The longer version:
June 16th, 2020 6:23pm PST
Update on T-Mobile Voice and Text Performance
Every day we see the vital role plays in keeping us connected, and we know T-Mobile customers rely on our network that they ensures connection with family, loved ones and service providers.The T-モバイルは、テクノロジーと人とのつながりを維持するために、日々重要な役割を果たしています。 これは、私のチームが非常に真剣に受け止めている責任であり、私たちの最優先事項です。 昨日は、私たち自身の卓越性の基準を満たすことができませんでした。
多くのお客様が昨日、音声とテキスト、特にVoLTE(Voice over LTE)通話で問題を経験されました。 何百人ものエンジニアがベンダーやパートナーとともに、問題を認識した瞬間から解決するために一日中たゆまぬ努力を続けました。 データ通信は引き続き機能し、多くのお客様のVoLTE以外の通話も可能で、FaceTime、iMessage、Google Meet、Google Duo、Zoom、Skypeなどのサービスにより、お客様は連絡を取り合うことができました。 さらに、多くのお客様は回線交換による音声接続を利用することができ、スプリントネットワークのお客様は影響を受けませんでした。 昨晩の午後10時(PDT)までに、全地域のVoLTEとテキストは完全に回復しました。 ネットワークが完全に稼働していることをうれしく思います…そして、その状態を維持するために日々取り組んでいます。
当社のエンジニアは、昨日の問題の根本原因を理解し、それに対処し、再発を防止するために夜通し働きました。 引き金となった事象は、南東部にあるサードパーティプロバイダーからの専用ファイバー回線の障害であることが分かっています。 これはどのモバイルネットワークでも起こることなので、この種の回線障害がお客様に影響を与えないよう、ベンダーと協力して冗長性と回復力を構築してきました。 しかし、この冗長性が仇となり、過負荷状態に陥り、さらに他の要因も重なってしまいました。 この過負荷の結果、IP トラフィックの嵐が南東部から広がり、VoLTE 通話をサポートする IMS (IP Multimedia Subsystem) コア ネットワーク全体に大きな容量問題が発生しました。
私たちは IMS (IP Multimedia Subsystem) および IP ベンダーと協力して、この問題が再発しないよう恒久的に追加セーフガードを追加するとともに、最初の過負荷失敗の原因を突き止める作業を継続中です。
Neville Ray
T-Mobile President of Technology
どのサードパーティプロバイダの光回線に障害が発生したかは、明らかではありません。 木曜日に、レイは、Wells Fargo Virtual 5G Forumでのプレゼンテーションで、障害を軽視し、顧客が代わりにモバイルデータを使用して他の通話を完了できたので、T-Mobileの通話の20%しか落とされなかったと主張しました。
「すべては一般的な庭のファイバー停止が引き金となりました」と彼は言い、それが「ネットワーク全体でこれらのIPフラッドの1つにつながったルーティング問題の設定の問題を露呈しました」、そしてそれが「コアアーキテクチャのあらゆる種類の容量と保護手段を生み出しました」と付け加えました。
「それを乗り切るためにやったことは、問題が本当に存在する場所を突き止めた後、その場で多くの容量を追加することでした」と Ray 氏は述べ、T-Mobile が将来このような問題を防ぐ方法について特に提案することはありません。 彼はこの停電を偶然の一致とみなしました。 「ファイバーの障害からルーティング・ネットワーク、コアの脆弱性まで、さまざまな意味で一連のイベントが同時に発生し、それが今回の障害となりました」
「決して絶対とは言いませんが、障害というのはテクノロジー企業である以上、常に付き物です。