社内SEの徒然なる日記

Windows2008で動いているソフトでバッファ系の障害発生

■ 障害発生!


Windows2008 R2のサーバ上で動かしている処理(ARCServeとFTP)が、同じタイミングで異常終了しました。

ARCServeマネージャを開こうとすると、デフォルト サーバ情報が表示され、OKを押すと「CA ARCserve Backup サーバを検出できませんでした。」とエラーが発生します。
Win2008TCP障害01

Win2008TCP障害02

Win2008TCP障害03

FTPをPowerShellから手動で実行してみると、openコマンド発行時に「bind :バッファー領域がサポートされていません」とエラーが発生します。
Win2008TCP障害04

ふーむ、ソフトというよりもサーバ自体が何やら変ですね。

...さて、どうしたものか。

■ 実験

他のソフトも動かして見ます。

Systemwalker Operation Manager(富士通製のジョブ実行ソフト)は、最初のログイン画面は表示されるのですが、「バッファ領域がありません。」とエラーが出て続行できません。
Win2008TCP障害05

Win2008TCP障害06

今度は、ServerView(富士通のサーバ運用管理ソフト)を起動しようとしたのですが、やはり接続できません。
Win2008TCP障害07

Win2008TCP障害08

Win2008TCP障害09

ふむふむ。

■ ログの確認

どう考えてもWindowsが怪しいので、ログを確認します。

管理ツール(スタート → 管理ツール → イベント ビューアー)を起動して、妙なエラーが発生していないか確認すると、アプリケーションログに、3ヶ月くらい前からOperation Manager関連のエラーが出続けていました。


レベル:エラー
ソース:MpPmonO
イベントID:10002

「Systemwalker Operation Manager のプロセス(SW_communication)が正常に動作しているか確認してください。 」


Systemwalkerのマニュアルからプロセス名を調べると、この「SW_communication」ってプロセスは、「Systemwalker Network Communication」というサービス名で、機能として「通信基盤」を担うもののようです。

今度はシステムログを眺めてみたのですが、なんだかやけにログの件数が少ない気がします。というか、何やらサーバが再起動された形跡がありません。

...あれ?

※ Windowsの再起動の確認方法

ソースが「EventLOG」で、イベントIDが「6005」、メッセージが「イベント ログ サービスが開始されました。」が起動。イベントIDが「6006」、メッセージが「イベント ログ サービスが停止されました。」がシャットダウン。として判断しました。

■ 稼働日数の確認

このサーバ、ServerViewの機能を使用して毎日再起動しているはずなのですが、数週間分のログをざっと見る限り、再起動されていないようです。

そこで、システムログをCSVで吐き出して、Excelで中身を見て見ることにしました。

イベント ビューアーから、Windowsログのシステムを右クリックして、「すべてのイベントを名前を付けて保存」 → ファイルの種類を「CSV(コンマ区切り)」にして保存します。
Win2008TCP障害10

Win2008TCP障害11

吐き出したCSVファイルをExcelで開いて、ソース「EventLog」で絞り込みます。
Win2008TCP障害12

稼働時間が50,823,244秒らしいので、こいつを日に直すと、50,823,244秒 ÷ 60 ÷ 60 ÷ 24 = 588日。

588日前って、確かサーバ導入した辺りのはず。どうやら、稼働以来ずっと再起動されていなかったようです。

■ 原因はこれ! ・・・かな?

さて、稼働日数が588日で、OperationManagerのエラーがログに出力され始めたのが3ヶ月前です。ということは、障害の起点は、588日 - 3ヶ月 = 497日前ってところでしょうか(数日のずれは無視します)。

この日数、実は心当たりがあって、Windows2008を長期間動かしていた時に、TCP/IPポートが閉じられないって障害があったはずです。

参考:http://support.microsoft.com/kb/2553549/ja

システム起動から497日経過した時に発生する障害らしいです。

って事は、TCP/IPポートが閉じれない状態でシステムが動き続けた結果、TCP/IPポートが枯渇。それによって、各ソフトで通信エラーが発生したってことでしょうかね?

確証を得るためには、もうちょっと情報採取を続ける必要があるのですが、そこまで暇ではないので、ここで調査終了としました。

■ 対応

結局、サーバを再起動したところ無事に復旧しました。

最初からそうしろって言われそうですが、迂闊に再起動しちゃうと原因の調査が難しくなる事があるので、できるだけの情報採取と原因の目星くらいは付けたかったのです。

再起動した後で、ServerViewの再起動スケジュールを確認したのですが、何故か毎日再起動するように設定されています。
Win2008TCP障害13

ってきり、ServerViewの再起動設定が漏れていたと思ってたのですが、当てが外れました。

継続調査しようと思ったのですが、翌日に確認するとスケジュール通りに再起動されていました。

...一体、なんだったんだろうか。

投稿記事の一覧:http://harikofu.web.fc2.com/

--- blog end ---

スポンサードリンク

PageTop

コメント


管理者にだけ表示を許可する