地デジサーバーのHDDが壊れたけど一応復活した話

コンピューター

2014.07.27

ついにこの日が来ました。HDD故障。地デジサーバーにしているマシンの、動画データ一時バックアップ用HDDが壊れました。が、一応、復旧したため、まだ交換はしていません。

我が家の地デジサーバーは、４年前の１０月に稼働を開始したATOMマシンです。CentOS 5.8でepgrecが動いています。HDDは1TB×１台のみだったのですが、特にシーズンの変わり目、一時的に全アニメ録画とかするタイミングで、この1TBでは回しきれず、仕方なく、古い1.5TBのHDDを追加し、一時バックアップ領域にしていました。

まぁ、お約束といえばお約束ですが、この「追加した古い1.5TBのHDD」が、壊れました。

sd 1:0:0:0: Unhandled error code
sd 1:0:0:0: SCSI error: return code = 0x00040000
Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK,SUGGEST_OK
Buffer I/O error on device sdb, logical block 0

logical block 0が読めない＝MBRが読めない、パーティション情報が無いので当然アクセスできないという、なかなか素敵な状態。smartctlでも状態掴めないし、こりゃダメかなぁと。

ウチの動画データ管理環境はどうなっているかというと、以下のような感じです。

地デジサーバー内蔵1TB。録画データの保存先。
地デジサーバー内蔵1.5TB。追加した一時退避領域＜今回壊れた＞
母艦サーバー。RAID6領域、2TB×6×RAID6=10TBの領域。ここに最終的には保存。

要するに、地デジサーバーは元々冗長化されていないため、いつ壊れても仕方がない状態だった。やっぱ壊れると困るんで（ノーゲーム・ノーライフまだ退避してなかったーとか、マジ焦った）、何か対策を打とう、と考えたわけでした。

さて。とは言え、1.5TBのバックアップデータを抱えられたまま死なれても困るので、なんとか復活できないかと格闘。結果から言うと、サーバーばらして、ケーブル繋ぎ直したら一応、治りました。が、やはりSMARTのRaw_Read_Error_Rateはそれなりにカウントされているので、すみやかにデータを引き抜いて、換装かけないといけない。

でも日曜夜は22:00から夜中まで録画スケジュールが詰まっているため、今日のところは、まだ手を付けていません。いつ本当に壊れるかと思うと不安なので、録画スケジュールに余裕のあるタイミングで、換装する予定。合わせて、CentOS 6にアップデートもしたいかなぁと若干色目を出していますが。

日	月	火	水	木	金	土
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31