KDDI通信障害は何故起きたのか?長期化したのか?

その他のリスク

7月2日未明からKDDIの通信障害が起こり、auやUQmobileのスマホは日本全国で通話や通信ができない状態となりました。
そして、この状態は過去に類を見ないほど長期化してしまい、全面的に復旧するまで3日以上かかったのです。
なぜ、通信障害が起こり長期化したのでしょうか?
その原因について、解説します。

通信障害の原因は?

7月2日未明から、KDDIでは通信障害が発生し、日本全国でauやその通信網を使用しているUQmobile、さらに一部ではauひかり電話なども通じなくなってしまいました。
朝、いきなり不通となったことでパニックを起こした人もいるでしょう。

通信障害は、なぜ起こるのでしょうか?
一般的には、機器の老朽化などによる不具合が原因で起こることが多いのですが、今回の場合はそれが若干異なります。

KDDIの場合、機器を入れ替えたことが原因で発生しました。
ルーターを新しいものに入れ替える際、音声トラフィックがおよそ15分間不通となりました。
そしてそれを皮切りに不具合が連鎖的に生じたのです。

まず、15分間一部の音声通話に不具合が生じたことで、切り戻し作業を行いました。
その際、ルーティング先として設定されたVoLTE交換機に高い負荷がかかってしまったのです。

不具合が起こったのは、音声通話に用いられるVoLTE交換機や加入者データベースの輻輳や、加入者データベースと交換機との間のデータが一致しないといった事象です。
これにより、最大3915万回線が影響を受けたのです。

KDDIの回線は、個人や法人のスマートフォンで多く使われていますが、それ以外にも物流や交通、気象、金融など様々なところで使われている重要なものです。
それがつながりにくい状態が、3日以上も続いたのです。

ただし、今回の不具合の発端となった機器は全国6拠点にあり、負荷が高まったのはそのうちの1つの拠点にあるものだけでした。
全国で18台を運用していて、必要に応じて拠点間での連携もできるようになっているため、能力的に処理できないということはなかったのです。

ではなぜ負荷が高まってしまったのかというと、切り戻し作業をしたことで交換機のカバーするエリア内にあったスマホが一斉に再接続を試みたためです。
そのせいで、一気に負荷が高まったのです。

ただし、これは50分に1回の頻度でしか起こらないものなので、それほど負荷が高まることはないと思われます。
かなりの利用者がいたとはいえ、すべてのスマホから来たわけではないため、事前のシミュレーションでは問題ないという結果になっていたのです。

では、なぜ通信障害が起こってしまったのでしょうか?
その原因を調査していたところ、新たに分かったのが問題の機器18台のうち6台から、何度も加入者データベースに繰り返し信号が送られていたことが分かったのです。
それによって、加入者データベースと交換機の双方にアクセスが集中してしまったことで、負荷が高くなる状況が継続していたのです。

そこで、7月4日の正午過ぎにシステムから当該の機器を切り離しました。
その作業によって、残った機器や加入者データベースの負荷は軽減したのです。
そして、輻輳回避のために無線設備の流量制限を適用していたのが解除され、ほぼ回復したという状況になりました。

今回の通信障害の主な原因は、当該の機器に不具合が起こって過剰な信号を発信したことで、機器の輻輳や加入者データベースの集中的なアクセス。そして双方間のデータが一致しないという不具合の連鎖が生じてしまったのではないか、と思われます。

なぜ長期化したのか?

問題は、なぜ解決までにこれほどの時間がかかったのかということです。
問題の個所から過剰な信号が出されていたということは、障害が発生してから2日以上も経過した段階でようやく発覚したのですが、それをもっと早く知ることができればここまで長期化しなかったのではないでしょうか?

それについては、吉村氏が会見の中で説明しています。
輻輳制御を実施したことである程度負荷が落ち着いた段階で、ようやくこの問題が見えてきたということでした。

また、昔と比較すると現在のモバイルネットワークはかなり複雑になっているというのも原因の一つです。
以前と今では、通信網が異なっているのです。

かつてLTEが導入された頃であれば、音声通話に関しては回線交換網が使用され、データ通信はパケット網が使用されていました。
しかし、VoLTEになった今では、音声もデータもすべてパケット網での処理になっているのです。

このように処理を1つにまとめることで、機器のメンテナンスなどはしやすくなるでしょう。
しかし、問題が起こったときの影響は大きくなってしまうのです。

また、KDDIではあえて時間をかけて対応をしたという面もあります。
例えば、急いで復旧させたとしても再び不具合が生じてしまうようでは、かえって完全復旧には時間がかかってしまうのです。

そのため、まずは流量制御を行うことで不具合が生じないかを慎重に確認し、段階的に緩和していったのです。
そして、ネットワークの健全性の確認作業を行っていたことで、ほぼ回復したということをホームページに掲載するのも遅れました。

復旧についても、時間がかかったとしてもこれ以上輻輳することを防ぐという点を第一に考えていました。
そして、データの不一致についても修正処理を慎重に行い時間をかけていたのです。

これは、最終的に利用者への影響が最も少ないのはどの方法かをよく考えた結果です。
その目的には最も適切と思われる手段が、時間をかけて復旧させるということだったのです。

また、障害が起こっていても3分の1ほどの利用者は利用に問題がなかったので、その利用者に影響が出ることがないように、ということも考えられていました。
今後KDDIが考えるべきなのは、再発しないようにすることでしょう。

まとめ

KDDIの通信障害は、多くの人に影響を与えました。
従業員のスマホが通じなくなったことで、業務に多大な影響が出た企業も多いでしょう。
今回は原因を突き止めるまでに時間がかかり、そのうえで再び起こることがないよう時間をかけて復旧作業を行ったことで、長期化したという面もあります。
こういった障害が繰り返し生じるようでは、企業としての信用を失っていくでしょう。
しっかりと再発防止の対策をすることが求められます。