[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[plamo:26647] ちょっと怖い話



笠井@職場です。

Plamo-MLと直接関係あるわけではありませんが、ちょっと怖い体験をしたので。
(強いて言えば下記サーバーのOSがPlamoです)

RAID5が逝きました

私が管理しているサーバーでの運用中の実例です。
本来は↓こういう状態だったRAID5のデバイスです。

md1 : active raid5 hde1[3] hdh1[0] hdg1[2] hdf1[1]
      241254528 blocks level 5, 4k chunk, algorithm 2 [3/3] [UUU]

md1は3台(hde,hdf,hdg)のHDDでRAID5を構成し、1台(hdh)は予備です。
連続運用開始から約2年経過後の昨日(12/18)未明のことでした。
まず、hde1が逝ったので、予備のhdh1を動員して再構築が始まりました。 

md1 : active raid5 hdh1[4] hde1[0](F) hdg1[2] hdf1[1]
      241254528 blocks level 5, 4k chunk, algorithm 2 [3/2] [_UU]
      [>....................]  recovery =  3.6% (4388936/120627264) finish=95.3min speed=20318K/sec

その再構築の最中にhdg1が逝きました。 

md1 : active raid5 hdh1[4] hde1[0](F) hdg1[2](F) hdf1[1]
      241254528 blocks level 5, 4k chunk, algorithm 2 [3/1] [_U_]

死亡確認です。(涙)

予想もしていなかったことって、起こるんですね。
この事件はサーバーからバックアップ機にバックアップを取っている最中に起きました。
バックアップのためにHDDに負荷がかかる状態だったので、2台のHDDが相次いで逝ってしまったのです。
バックアップ機を用意しておいたことで最悪の事態は防ぐことができましたが、まったく被害がなかったわけではありませんでし
た。
RAIDを組んでいるからといって安心していると痛い目にあいます。

===========================
笠井 宗
http://www.heart-pot.co.jp/

Follow-Ups
[plamo:26649] Re: ちょっと怖い話, kishida
[plamo:26650] Re: ちょっと怖い話, KOJIMA Mitsuhiro

[検索ページ] [メール一覧]
Plamo ML 公開システム