地デジサーバーのHDDが壊れたけど一応復活した話

コンピューター

ついにこの日が来ました。HDD故障。地デジサーバーにしているマシンの、動画データ一時バックアップ用HDDが壊れました。が、一応、復旧したため、まだ交換はしていません。

我が家の地デジサーバーは、4年前の10月に稼働を開始したATOMマシンです。CentOS 5.8でepgrecが動いています。HDDは1TB×1台のみだったのですが、特にシーズンの変わり目、一時的に全アニメ録画とかするタイミングで、この1TBでは回しきれず、仕方なく、古い1.5TBのHDDを追加し、一時バックアップ領域にしていました。

まぁ、お約束といえばお約束ですが、この「追加した古い1.5TBのHDD」が、壊れました。

sd 1:0:0:0: Unhandled error code
sd 1:0:0:0: SCSI error: return code = 0x00040000
Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK,SUGGEST_OK
Buffer I/O error on device sdb, logical block 0

logical block 0が読めない=MBRが読めない、パーティション情報が無いので当然アクセスできないという、なかなか素敵な状態。smartctlでも状態掴めないし、こりゃダメかなぁと。

ウチの動画データ管理環境はどうなっているかというと、以下のような感じです。

  1. 地デジサーバー内蔵1TB。録画データの保存先。
  2. 地デジサーバー内蔵1.5TB。追加した一時退避領域<今回壊れた>
  3. 母艦サーバー。RAID6領域、2TB×6×RAID6=10TBの領域。ここに最終的には保存。

要するに、地デジサーバーは元々冗長化されていないため、いつ壊れても仕方がない状態だった。やっぱ壊れると困るんで(ノーゲーム・ノーライフまだ退避してなかったーとか、マジ焦った)、何か対策を打とう、と考えたわけでした。

さて。とは言え、1.5TBのバックアップデータを抱えられたまま死なれても困るので、なんとか復活できないかと格闘。結果から言うと、サーバーばらして、ケーブル繋ぎ直したら一応、治りました。が、やはりSMARTのRaw_Read_Error_Rateはそれなりにカウントされているので、すみやかにデータを引き抜いて、換装かけないといけない。

でも日曜夜は22:00から夜中まで録画スケジュールが詰まっているため、今日のところは、まだ手を付けていません。いつ本当に壊れるかと思うと不安なので、録画スケジュールに余裕のあるタイミングで、換装する予定。合わせて、CentOS 6にアップデートもしたいかなぁと若干色目を出していますが。

コメント

タイトルとURLをコピーしました