2012年7月8日日曜日

ファーストサーバがデータを消失!


5,700ユーザーのデータを消失

ヤフーの子会社ファーストサーバが提供するレンタルサーバーが、2012620日に約5,700ユーザー(うち80%は法人)のデータを消失した (1)。メール、ウェブの他、業務に直接利用しているデータも含まれているという。

バックアップデータも同時に消失したため、一部を除きデータの復旧は不可能だという。そのため、契約に基づいて、今までに支払った費用の総額を限度として損害賠償に応じるという(2)

ユーザー側にバックアップデータがない場合は、もうこの世のどこにもデータは存在しない。アップロードしたウェブのデータなどはユーザー側でバックアップしてあっても、例えばアクセスカウントやログ情報などは、ユーザー側にデータのバックアップがないケースも多いだろう。また、このレンタルサーバーはSaaS (Software as a Service)で提供するグループウェアのサーバーとしても使われていたというので、業務が止まってしまった企業もあるかもしれない。被害は甚大である。

クラウドで提供されるレンタルサーバーの危険性については、本ブログの「Gmailの障害の教訓・・・クラウドにご用心(2011/3/7)でも指摘したが、今回それが深刻な形で現実になってしまったわけだ。

どこに問題があったのか?

ハードウェアの故障、人間の誤操作はゼロにはできない。そのために、いろいろな対策が取られているはずなのに、どうしてこういう事故が起きてしまったのだろうか? ファーストサーバの中間報告(1)から問題点を考察してみよう。

(a) 今回の事故は、更新プログラムの適用時の操作ミスだという。その時、ファイル削除コマンドを停止させる指示を漏らしたという。

更新プログラムの適用は日常的に行う。通常はその際、ファイル削除などは不要なはずで、毎回その停止の指示が必要なシステムは好ましくない。日常的に行う作業は極力単純にして、誤操作の可能性を最小限に抑えなければならない。これは、飛行機や船の操縦、列車の運転などでも同じだ。

(b) さらに、更新プログラムを適用するサーバー群の範囲の指定を漏らし、対象外のサーバーにも適用してしまったという。その上、検証システムを使っての事前検証時に、対象サーバーが更新されていることを確認しただけで、対象外のサーバーが影響を受けてないことを確認しなかったという。

システムに手を加えたときは、対象部分が意図した通りに変わったことを確認するだけでなく、対象外の部分に副作用が及んでないことを確認する必要がある。これは、一般的に極めて困難で、副作用がないことの完璧な確認はほとんど不可能だ。これは薬でも同じだろう。

しかし、今回のケースについて言えば、更新プログラム適用の操作で、対象サーバーを指定するようになっているのだから、その他のサーバーのファイル更新日時が変わってないことぐらいは確認するべきだったと思う。

(c) また、このシステムでは、ハードウェアの障害時などに切り替えて使うバックアップサーバーと、ユーザーデータのバックアップが同一システムになっていたという。そして、バックアップサーバーをいつでも本番機に切り替えて使えるようにするため、これに対しても本番機と同時に更新プログラムを適用することにしていたという。そのため、本番機のデータと同時に、バックアップ機のデータも消失してしまったということだ。

バックアップ機は、いつでも本番機として使われる可能性があるので、これとは別に純粋にデータだけのバックアップを持つのが普通だ。そして、それは誤操作で書き換えることがないよう、書込み禁止にしておくのが普通である。また、バックアップ取得時の事故もあるため、少なくとも何世代かのバックアップファイルを保管しておくべきだろう。そして、火災、震災等を考えれば、バックアップファイルの別地保管も必要だ。

このようになっていれば、今回に事故の被害もかなり抑えられたはずだ。このシステムではこれらのどの対策も取られてなかったことが致命的である。

ユーザーや行政機関も対応策が必要

今回の事故は、レンタルサーバーの事業者の問題が大きいが、ファイル消失の事故は皆無にはならない。そのため、前記のブログでも触れたように、ユーザー側でもできるだけバックアップを取っておき、最悪の事態を回避できるようにすべきだ。これはサーバーの障害だけでなく、例えば、ウェブページのデータ更新時のミスを、世代をさかのぼって調査・修正するためにも必要である。

また、アクセスカウントやログ情報など、サーバー側にあるデータも定期的にユーザー側に取り込んでおくことが望ましい。

レンタルサーバーの事業者は、耳障りがいい謳い文句を並べるが、システムの実態がどうなっているのかさっぱり分からないことが多い。事業者は、コストと信頼性を天秤にかけているのだろうが、今回のように個人のシステムでも実施しているような対策さえ施してないシステムが存在すると、基本的な知識を疑いたくなる。

そのため、行政機関はレンタルサーバーの信頼性の確保について、何らかのガイドラインを制定するべきではなかろうか? そして、実施している信頼性対策について、できるだけ具体的に、定量的に開示することを義務付けるべきだ。さらには、建築基準法の耐震基準のような、罰則付きの法規制も必要かもしれない。

(1) 大規模障害の概要と原因について(中間報告)」、ファーストサーバ、2012625
(2) 大規模障害に関するFAQ」、ファーストサーバ、201276

0 件のコメント:

コメントを投稿