お名前.com VPS(KVM)障害

お試し中のお名前.com VPS(KVM)が落ちた。(以下、時間はすべて JST)

http://www.onamae-server.com/support/news/detail.php?nid=12859
 サーバーサービス 不具合のお知らせ

お名前.comレンタルサーバーをご利用いただきまして、誠にありがとうございます。

下記日時におきまして、一部サービスに障害が発生しておりました。
ご利用のお客様には大変ご不便をおかけ致しましたことを深くお詫び
申し上げます。


 発生日時 : 2012年07月20日(金) 06時07分頃
 復旧日時 : 2012年07月20日(金) 13時00分頃
 対象   : VPS(KVM)ご利用の一部のお客様(cnode-a1104)
 影響/詳細 : 収容サーバの高負荷により、VPSに接続ができない
        障害が発生いたしました。
        
        本障害の復旧作業に伴いVPSの再起動を実施させて
        いただいております。

発生時間が 6am からのようだが、実際に影響が出たのは 8:12am だった。8:12am に一度落ちて、8:39am に上がってきたけど、9:59am に再度落ちてる。その後上がってきたのが 12:33pm だった。

障害発生から本復旧まで実質合計4時間21分。(8:56am くらいに一度復旧してることに気づいて作業を始めたけど、また 10am くらいに落ちたログも残ってた)

以下は syslog からの抜粋
Jul 20 08:12:37 host sshd[1205]: Received signal 15; terminating.
Jul 20 08:12:37 host kernel: Stopping cron.
[...]
Jul 20 08:12:38 host syslogd: exiting on signal 15
Jul 20 08:39:19 host syslogd: restart
Jul 20 08:39:19 host syslogd: kernel boot file is /boot/kernel/kernel
Jul 20 08:39:19 host kernel: Copyright (c) 1992-2012 The FreeBSD Project.
[...]
Jul 20 09:59:18 host sshd[1201]: Received signal 15; terminating.
Jul 20 09:59:18 host kernel: Stopping cron.
Jul 20 09:59:18 host kernel: Stopping sshd.
[...]
Jul 20 09:59:19 host kernel: Waiting for PIDS: 1100
Jul 20 09:59:19 host kernel: .
Jul 20 09:59:19 host syslogd: exiting on signal 15
Jul 20 12:33:10 host syslogd: restart
Jul 20 12:33:10 host syslogd: kernel boot file is /boot/kernel/kernel
Jul 20 12:33:10 host kernel: Copyright (c) 1992-2012 The FreeBSD Project.
Jul 20 12:33:10 host kernel: Copyright (c) 1979, 1980, 1983, 1986, 1988, 1989, 1991, 1992, 1993, 1994


ちなみにいずれの場合もいきなり落ちてるわけじゃなく、(なぜか)ちゃんと shutdown シーケンスが走ってる。これはファイルの保護とか考えるとありがたかった。


障害発生中はコントロールパネル(https://cp.myvps.jp/)にログインしても、コンソールはつながらないし、再起動、シャットダウン、電源断、などの操作も受け付けなかった。(しかもサーバのステータスは「稼働中」のままだった)


障害情報を見る前にサポートに電話しちゃったけど、会員ID(7桁の数字)を伝えたらすぐに故障のことを教えてくれた。24時間電話受付をしてくれるのは安心感が高い。(例えばさくらは10am〜6pmで土日祝休み) (まぁでも、電話で得られる情報ってウェブに載ってる情報とほぼ等価なことが多いからあんまり意味はない場合が多いけどね)


しばらくしたら「ログインに失敗しました。ログインIDとパスワードをご確認ください。」と表示されてコントロールパネルにもログインできなくなった。(故障対応の一環として一時的に使えなくしたのかな?)


その後 12:32pm 頃にサポート担当の方から「復旧したと思う」という電話が(わざわざ)かかってきた。聞いてみると「なぜかVMの起動に時間がかかったんだけど、何か心当たりはあるか?」という問い合わせだった。残念ながら何も心当たりはなかったので申し訳なかったけど、電話までしてきて対応(原因究明)する姿勢は素晴らしい。


というわけで、まだお試し中なので特に困ったことはなかった上に、(まだ課金ユーザじゃないにも関わらず)サポートの体制も悪くないことが分かったので、むしろ収穫だったと言えるかな。


(ちなみに、障害中に Twitter で「お名前 VPS」とかで検索したんだけど何も引っかからなかった。理由は 1) サービスのユーザが少ない 2) 当該ホストにはユーザが少ない 3) 普通は気にしない 4) こんなことわざわざtweetしない 5) 気づかない 6) その他 のどれだろう。)




StartSSL certificate for Sendmail as client cert

StartSSLで取得した証明書を Sendmail のクライアント証明書に設定("confCLIENT_CERT")して STARTTLS で認証できるようになったかと思いきや、
Jul 19 16:53:10 server sm-mta[7174]: STARTTLS=server, relay=hoge.example.com [x.x.x.x], version=TLSv1/SSLv3, verify=FAIL, cipher=DHE-RSA-AES256-SHA, bits=256/256
というログが出て認証に失敗した。

理由が分からなかったのでサーバー側で sendmail.cf の
O LogLevel=9
を14に変更して sendmail を再起動。

再度メールを送ったところ今度は
Jul 19 16:55:09 server sm-mta[7174]: STARTTLS: TLS cert verify: depth=0 /description=xxxxxxxxxxx/C=JP/CN=hoge.example.com/emailAddress=mail@example.com, state=0, reason=unsupported certificate purpose
というログが残った。

ちょっとググってみるとどうやら証明書の使い道が適当じゃないのが原因のようだ。
$ openssl x509 -noout -purpose -in hoge.example.com.pem
Certificate purposes:
SSL client : No
SSL client CA : No
SSL server : Yes
SSL server CA : No
Netscape SSL server : Yes
Netscape SSL server CA : No
S/MIME signing : No
S/MIME signing CA : No
S/MIME encryption : No
S/MIME encryption CA : No
CRL signing : No
CRL signing CA : No
Any Purpose : Yes
Any Purpose CA : Yes
OCSP helper : Yes
OCSP helper CA : No
の "SSL client" のところが Yes になってないとこの目的には使えないらしい。

どうも https://www.startssl.com/?app=40 を見る限り、有償だと使えそう("Server-Client Authentication" がそれじゃないかな)だなぁ。とりあえず問い合わせてみた。

(追記:contact formから問い合わせたらすぐに返事がきた。結論はやっぱりクライアント証明書には有償の Class2/3 certificate を使え、ということだった。)