[ 平成19年5月16日 「フレッツサービス」および「ひかり電話」をご利用できない状況について(最終報) ] NTT東日本では、「フレッツサービス」および
「ひかり電話」をご利用のお客様が、5月15日(火)18時44分から5月16日(水)1時35分までの間、ご利用できない状況となりました。
お客様に多大なるご迷惑をおかけしましたことを深くお詫び申し上げます。 今回の事象について、概要と原因、対策等をご説明させていただきます。
【発生日時】 平成19年5月15日(火)18時44分 【回復日時】 平成19年5月15日(火)20時53分以降、順次回復し、平成19年5月16日(水)1時35分に全面回復。
【対象】「フレッツサービス」および「ひかり電話」をご利用のお客様(1:Bフレッツ、フレッツ・ADSL、フレッツ・ISDN)
【影響】東京都(23区は除きます)、北海道、青森県、岩手県、宮城県、秋田県、山形県、福島県、茨城県、栃木県、群馬県、新潟県、山梨県、長野県の
14都道県のお客様に影響が出ておりました。なお、東京都23区および、神奈川、千葉、埼玉の3県のお客様には影響はございませんでした。
【影響を受けたご契約者数】Bフレッツ:約100万契約(再掲:ひかり電話:約50万契約) フレッツADSL:約126万契約 フレッツISDN:約13万契約
【原因】IP伝送装置のハード故障に伴うパッケージ交換工事を実施しましたが、その際、弊社IPネットワーク内に処理可能な量を超えるルート情報が発生しました。
その結果、多くのIP伝送装置において、連鎖的に処理能力オーバーとなり、IPパケットの転送処理を自律停止したものです。
通常、IP伝送装置の工事を行った際には、各IP伝送装置のルート情報は、その都度、自動的に書き換えられる。
【措置状況】弊社ビル内にある「フレッツサービス」および「ひかり電話」用のIP伝送装置の送受信部分をリセットすることにより、サービスを回復いたしました。
【対策】当面の緊急措置として、安定運用が図れるようにルート情報の数を減らす処置を急遽、実施いたしました。併せてルート情報の自動書き換えを含む
処理能力向上のため、IP伝送装置のソフトウェア変更を早急に実施していくこととします。引き続き、より一層の安定運用に努めて参ります。
[ きっかけは1台のルータ故障 3秒で2000ルータがダウン、NTT東フレッツ障害の原因は ] NTT東日本の「フレッツサービス」「ひかり電話」が
東日本の広いエリアで5月15日18時44分から翌日1時35分まで使えなくなった大規模障害の原因が分かってきた。5月16日に説明会見を開いたNTT東日本によると
障害のきっかけは1台のルータの故障。このルータ故障の影響が3秒でNTT東日本管内の約 4000台のルータに広がり、2000台が機能を停止した。
NTT東日本の代表取締役副社長大木一夫氏は顧客に謝罪したうえで、「今回の事象を教訓に次世代ネットワーク(NGN)を安心安全信頼のネットワークにしたい」
と語ったが、緊急通報までも利用できなくなった今回の障害で、同社の技術に対して不信感が広がりそうだ。
障害が発生したのはBフレッツ(約100万契約。うち、ひかり電話契約は約50万)、フレッツ・ADSL(約126万契約)、フレッツ・ISDN (約13万契約)。
23区を除く東京都と、北海道、青森、岩手、宮城、秋田、山形、福島、茨城、栃木、群馬、新潟、山梨、長野の14都道府県。23区と神奈川、埼玉、千葉は
設備が新しいこともあり、影響を受けなかった。15日20時53分から順次回復し、16日1時35分に全面復旧した。障害のきっかけは東京・蔵前の施設にある
ルータのハードウェア故障。故障した部品を取り外した際にルートが予備系に切り替わり、修理後に本番系にルートを戻したが、その際ルート情報を管内にある
約4000のルータに自動で伝えたところで障害が発生した。管内にあるルータは約1万5000のルート情報を持ち、うち故障したルータは82のルート情報を持っている。
ルート情報を伝えられた約4000のルータは、故障によって変更した82のルート情報と、自らが持つ約1万5000のルート情報を照合し、適切なルートを
再計算する必要がある。しかし、NTT東日本の説明よると、「ルータの数が増え、ルート情報が多くなっていた」「高トラフィックだった」などによる
「複合的な要因」で、処理能力がオーバーし、ルート情報を書き換えられないルータが続出。ルート情報を書き換えられないことによってIPパケットの転送処理が
自動停止した。1つのルータの転送処理が止まると全ルータがルート情報を再び変更する必要があり、それぞれのルータの負荷が高まる。
このようにルータの負荷が連鎖的に高まることで、ダウンしてしまうルータが約2000台におよんだ。
NTT東日本は停止したルータを再立ち上げすることでサービスを復旧させた。最新のソフトウェアを利用するルータは大丈夫だったが、2〜3年前から使っていて
ソフトウェアが旧バージョンのルータがダウンしてしまった。このようにルーティングテーブルが頻繁に書き換えられるためにパケット転送処理が
できなくなることをルートフラッピングと呼ぶ。ルート情報をやりとりするプロトコルとしてはBGPが使われている。ルートフラッピングによる障害を回避する
BGPの仕組みとしては、1度不安定になったルートに対してペナルティを与えて、ペナルティが累積しているルートの情報はほかのルータに通知しない
ルートフラップダンピングなどがある。NTT東日本がルートフラッピングに対してどのような対策を講じていたかは不明。
「複合要因のメカニズムは今後検証しないといけない」(同社 取締役 ネットワーク事業推進本部 設備部長 吉村辰久氏)としている。
NTT東日本は対策としてドメイン内のルータが持つ約1万5000のルート情報を一時的に1万3000に減らしたと発表。
ルート情報を変更する際の計算を少なくし、各ルータの処理負荷を下げる。16〜17日も作業を行ってさらにルート情報を減らすという。
また、新しいソフトウェアを導入していたルータでは障害が発生しなかったことから、古いソフトウェアで動くルータを10日ほどかけてアップグレードする。
さらにIPネットワーク技術者の育成を行って、今後のNGNに備える考えだ。ひかり電話はサーバソフトウェアの不具合で2006年9月にも障害が発生し3日間ダウンした。
大木氏は今後のIP系サービスついて「新しい技術でまだ遭遇していない事象もある」と語ったものの、「フレッツサービスを販売停止する必要があるまでの
不安定さとは考えていない」という。(atmarkIT)