WD受難

WDのHDDが立て続けに壊れ始め、2回目のRMA以来暇があればcrystaldiskinfoでチェックするようにしている。
メインサブともにブートにWDを使用しているので慎重にならざるを得ない。
EADSシリーズ3台を所有しており、メインのブートとデータの2台はすでにRMA品であり、次の懸念はサブ機である。

そして先週末。
crystaldiskinfoにてC5,C6に黄色信号が灯っていたのを確認。
そういえば直前にスリープ復帰に失敗している。
改めて起動するとデスクトップのアイコンが2画面にわたってばらばらに散らばってしまっているが、なんとか通常通りに操作を受け付ける。
本来ならこの状態でバックアップを先に取っておくべきだろう。
今回は容量同じの代替品であるHGSTのHDDが転がっているし、直近のWHSのバックアップも確認済み。
なので修復は可能と判断し、そのままデータ退避せずにchkdskを試してみた。

パーティションを切って2ドライブとなっているが、ともに異常なし。
だが、試しに再起動してみるとログインあたりで確実にフリーズすることを認識。
この状態ならwindowsの修復で回復するかもしれないが、EADSを信頼していないのでドライブ換装を予定済み。
そこで、WDのData Lifeguard Diagnostic for DOS (CD)を使用してHDDをチェックしてみる。

まず、クイックテスト。
これで検査通らず、error code:0007
smartとの間で何かのエラー(なのか?)らしい。

続いてextended test。
WD10EADSで1TBなのだが、これが3時間半。
検査結果はerror code:0223
再度クイックテストしてみると、確かにパスした。
これで一応は問題ないようであるが、当然安心できないので日立に載せ替えた。

最近の温度管理を思い出してみても、このHDDの温度環境は比較的良い部類である。
最高でも40度。
ここ数ヶ月はずっと40度以上にはなっていない。
グーグルのHDD検証結果を鑑みても、確かに低温だからといって故障率が下がるという相関性は無いのかもしれない。

EADSよりも数年前から稼働しているサムスンの2台は未だに問題ないし、もっと前に購入したやはりサムスンの2台もチェックしてみたが問題なし。
seagateは一台だけ(WHS常時稼働)で、まだ日は浅いのでよくわかない。
日立は最近壊れた一台のみで、休眠中の他2台も問題なし。
IBMとMaxtorは接続してチェックできるマザーがないのでわからないが、稼働時に故障(不良セクタ含む)が見つかったことはない。
そういえばJTSというブランドのHDD1Gは5年くらいで壊れたかな。
その際は確かに不良セクタが少々出てきていた。
日本TEXAのHDD240MBですらまだ読み書き可能なのに、WD2台が購入後1~2年というあまり違わない期間に終えるというのは何とも…。
どちらもEADSであり、WDを総じてだめとは言えないものの、残念な結果になって信頼できずにいるのは事実である。
しばらくはWDを使う気になれないのは仕方ないところだ。 😡

<追記>
確かにc6(回復不可能セクタ数)は黄色信号だったが、今一度確認してみたら青信号に戻っていた。
生の値もゼロとなっている。
エラーコードから、smart関連のエラーだったので、やはり整合性だか通信だかのエラーだったのかもしれない。
c5代替処理保留中のセクタ数は生の値がAとなっている。
また、おかしなことに、c2温度が最悪値92となっている。
計算上これは55℃ということになる。
直前までの最高温度は確か45℃前後だったはず。
テスト中もchkdsk中も継続してファンで冷却が成されているにもかかわらず、また50℃を超えるほどの熱を発するほどのHDDとも思えず、どうしてこんな数字になっているのだろうか。
不思議である。 ❓
ともかくこんな不思議なディスクは常用できないのである。
(clystaldiskinfo4.0.1→4.0.2a共にチェック済み)

<2011.9.12追記>
すっかり忘れていたが、サムスンの1.5TBのハードディスクが半年くらいで不良となっていた。
メーカー保証しかないので、ある意味半年で壊れたのは良いやら悪いやら…。
で、症状としては、HDDを認識しなくなるというものだった。
起動して当初はアクセスが可能であるが、HDDに持続的に負荷のかかる状態を数秒続けると認識しなくなる。
サイズの大きいファイルの移動や、chkdskをするとアクセスできなくなる。
この症状もデータ救出ができないのでやっかいである。

気づき2点(相性問題とwhs自動バックアップ)

まずは前回のWHSコネクタ更新の続き。
昨日の更新で機能の是正が行われたのを目の当たりにしてから、もしかしたら自動バックアップも改善されているのかもしれないと思い、3週間ぶりに「スリープ状態を解除して自動でバックアップ」にチェックを入れてみた。
それ以前は自動でバックアップにチェックを入れておくと、バックアップを自動でしてくれるもののスリープ再突入をしてくれなくて、毎朝手動でシャットダウンあるいはスリープをしていた。
なので省電力ではないから、自動バックアップではなくもっぱら手動バックアップへ変更となったわけだ。

バックアップは深夜帯を指定しているので、その帯域に入る前にスタートパッドのバックアップにある「自動的にこのコンピュータのスリープまたは休止状態を解除し、スケジュールされたバックアップを実行する」にチェック。
スリープして昨晩は終了。
明けて翌朝の今、スリープ状態のパソコンを立ち上げ、「バックアップの状態」からバックアップの前回履歴を見るとバックアップされていた。
まだ試行は一回のみなので結果として断じるには早い。
ただ、明日以降が楽しみである。 😳

<2011.08.26追記>
今朝はまた電源つきっぱなしだった…。 😐
また、関連があるか今は不明だが、しばらく後にシャットダウンも再起動も受け付けないというハング状態に陥っていたので、それも要観察だ。
しばらく様子を見よう。

<2011.08.27追記>
今朝はバックアップ後にきちんとスリープに移行していた。
昨日のようにならないように、スリープ前に再起動をかけていた。
今日は通常通りに使用してみて、明日はどうだろうか。

<2011.08.29追記>
昨日も今朝も成功。
いつも通りに作業をしてスリープに入っているので、これはもう安心できるかも。
ただ、26日のハングの原因が関連性があるのか不明なのが気になるところ。
でも、これならV1の時と同じように自動バックアップで良さそうだ。

<2011.9.11追記>
その後常用していたら再度スリープ失敗になり、三日くらい連続して発現してきた。
そこでサービスを片っ端から切ってみてチェックしてみた。
まずatiのcccを疑ってみたが、これは白。
終了時にまれにcccが強制終了となるので、これだろうと思っていたのだが…。
次に疑ったのが常駐組のk10stat。
これが問題があると思わなかったのだが、以来これまで失敗無し。
スタートアップで自動起動を変更してタスクスケジュール化にすれば良いのだろうか。

———————————————-

次に気づき2点目。
以前問題山積でスリープ常用をあきらめたasrock 870 extreme R2.0であるが、別に組んでみることにした。
環境の違いとしては、
・スリープ常用はしない
・CPU切り替え機は使用しない
・CPUは新調
という3点、それ以外は同じ状況。

これでwindows7 64bit。
メモリ16G。
以前ならメモリのエラーチェック(memtest+)でエラー続発だったが、今回は一度もエラーをはかなかった。
これはcpuの違いによるものか。
athlon 2 x3 445 → athlon 2 x2 245e

なお、コアアンロック機能の無効有効はメモリーエラーの発生と関連性が見受けられなかった。
内蔵のメモリコントローラに依るところがあるのかもしれない。
ただ、メモリがシビアだったathlon 2 x3 の方も、マザーを変えたらエラー皆無だった。
このことから、マザーとcpuの組み合わせによってメモリの相性というのは様変わりすると言えそうだ。

whs アラートのポップアップ

先ほどサーバの更新&再起動の後、コネクタの更新のお知らせポップアップが出てきたので早速再起動をかけてみた。
すると、「ハードドライブの空き容量が不足しています」というアラートのポップアップやアラートのカウントが適正に処理されるようになった。
ハードディスクの容量が少ないのはわかっているし、どうしようもないこともまた事実な訳で何の処方もなく、ただ「アラートの無効」を選択していた。
たぶん本来ならこれでポップアップが出てこないはずなのだが、不具合なのか、どのパソコンにもアラートポップアップがひきつづき表示されて少々鬱陶しかった。
これがコネクタの更新後、アラートがグレーアウトしてかつアラートのカウントにも乗らないし、アラートのポップアップも出なくなった。
機能が全く働いていなかったのが、ちゃんと動くようになったわけだ。

すごく細かいことではあるがこれはありがたい。
というか、適正に戻っただけか…。 😉

HDDの熱対策

近年HDDの容量が増えて、故障するとその影響はとんでもなく大きくなってきた。
実際、WD1TBが逝ってしまって少々残念なことになってしまった。
温度だけで考えると、同じ条件で動作しているにもかかわらず、また導入時期も大して変わらないのに、WDのHDDだけが逝ってしまうのは少なからず疑念が出てくるのだが、それはそれ。
ともかく温度を下げてみようと考えたわけだ。
夏場になるとだいたい30℃以上確定の部屋に置いてあり、かつ常時稼働が当然であるサーバのHDDにとってはつらい環境には違いないからだ。

さて、この記事は一度投稿したのに直後に消えて書き直しているので、少々やる気が出ない。
そんなわけでごくさっくりと行きたいと思う。

まずはサーバのHDDの過去と現状。
サーバ用HDDマウント冷却ファン装着
上記は冷却ファンをマウントできるようにしたもの(自作品)。
冷却風の経路を設けて効率的に排熱できるようにしたわけだ。
以前は金属ATXケースのHDDラックにマウントしていた。
筐体は常時むき出し(バラック状態)で、ラックを介して微々たるものだろうが熱容量の増加及び廃熱はできていたはずだ。
実際のsmartのデータがそれを証明している。(注:サムスンHDDが気温よりも低い数値を出す例のように絶対値ではない可能性はあろうが…)

雰囲気30~35℃弱(夏場)。
seagate 5700rpm HDD 40度。(smartの最高温度)
↓(冷却ケース導入後)
負荷時:37度。

むしろバラックとはいえ40度に収まっていたことが驚きである。
サムスンは数値が結果と直結しているわけではなさそうで、温度は不明である。
ただ、リアルタイムにみていると、負荷時で29度。
温度を監視して相対的にログを見ればわかりそうだ。
————————————————–

一方、メインマシンのHDDはWD2TBのRMA品。
こちらは密閉ケースで第三種換気。
排熱用ケースファン8cmが一つ。
金属ラックに4カ所ねじ止め。

1.以前smart値 45℃。(smartの最高温度)

まず大きな変更はせずに適当なファンをケースのHDDマウントに直につけて様子を見ることにした。
HDDマウントにファン装着
ファンはプレステ2についていたファンで、とても高周波が耳についてうるさい。
ケース内だから良いと思ったが、ケース越しにうるさい。 😕

2.プレステ2ファン 43℃。

負荷がなければ40℃くらいだが負荷がかかると43℃くらいになってしまう。
一度熱を持つとかなりのアイドリング時間を経ないと40度まで下がらない。
そこでサーバのHDDケースのようなものをまた自作。
専用HDDラック冷却ファン装着
メインマシンはmicroATXケースであるためその制約上、底部への設置は2台が精一杯。
横から見た写真

3.専用冷却マウント 40度

一緒につけているWD1TB(RMA品)も1~2度低い値を出して、負荷をかけても安定しているので、冷却は十分のようだ。
このように専用冷却機構はうまく機能しているといえる。
ケースを半開きにするとさらに温度は下がって負荷時38度で安定。
HDDの熱に対する処置はこれで良いと思われるが、上記の結果からすると、単純にHDDのみを冷却するのではなく、ケース内の温度自体を下げてやらないと効果は薄れがちということは言えそうだ。

空気の経路

サーバ用HDDマウント冷却ファン装着
上記はサーバのHDD冷却用のケースであるのは前述の通り。(投稿が消えてしまってる…) ❓
これができるのはATXケースに、マザーは6100-itxという小さい基盤のおかげ。
マイクロATXだとスペースが少なくてケースに入れて底部におけるのは2台が精一杯。
ATXとかバラックなら自由に作れるだろうな。

主な材料はプラ板。
接着はホットボンド。
工具としてはドリル以外に、ドリル刃、錐(コンパスの先でも可能)、カッターくらいか。
作業として難しいことは特にないので説明もなし。

で、肝心の構造。
冷却するための風の経路を考えないといけない。
今回はHDD間を約10mmとしている。
風量に対して狭すぎても広すぎてもだめだろう。
風の接する表面積を考慮する必要がある(が、計算するはずもなく…適当)。
また、ファンの起こす風が均一にながれるようにHDDとファンの間に空間(チャンバー室)を設けてある。
写真右の方にあるファンから風が発生し、左に空間、そのさらに左にHDDを抜ける経路があって、風が抜ける。

実際には静音ファンにもかかわらず風切り音が若干するので、HDD間の隙間をもっと広くしても良さそうだ。
ともかく冷却能力は大変よろしいのでこのままでよしとする。 😳