« パーツを管理しよう | Main | 壊れにくいサーバについて考える(パワーサプライ編) »

January 16, 2005

壊れにくいサーバについて考える(HDD編)

※多くの方から「HDD障害を防ぐには冷却が重要」との意見を頂戴しましたのでその件追加しました(2005.1.19)

幸いなことにうちの会社ではこれまでサーバ故障に見舞われたことがほとんどないのですが、他の会社に勤める技術者の方々と話すと結構サーバ故障が頻発して困っていると聞くことが多いです。まずはサーバの中で壊れやすい部分はどこかを知っておくことは必須です。一般的には次の順番で壊れやすいと言われます。

 第1位:HDD
 第2位:パワーサプライ
 第3位:ファン
 第4位:メモリ

この4要素全てで品質が良いサーバを選べば壊れにくいサーバであると言えます。そこで今回はその中でも壊れやすいと言われるHDDについて考えてみたいと思います。

【HDDについて知る】
ハードディスクにはATAとSCSIがあるのはご存知だと思います。ATA HDDよりSCSI HDDの方が価格が高いので壊れにくいのでは、と通常思われているわけですが、これは半分その通りですが、その程度の認識だけだと不十分です。

メーカーによりますが通常どのメーカーでもサーバ用と一般用の2ラインの製品を持っています。サーバ用と一般用では品質にかなり大きな差があり、それに伴いMTBF(mean time between failure・・・壊れるまでの時間)も桁違いに変わってきます。よって一般用HDDを使っているようなサーバがもしあったとしたらそれはサーバ用途としては論外ということになります。

次にSCSI HDDとATA HDDについてですがMTBF的に見るとSCSI HDDのほうがATA HDDより長いことが普通です。何故そんな結果になるのかビジネス的な視点で考えれば明確です。SCSI HDDとATA HDDは構造的には似通っているのでATA HDDでもSCSI HDD並みのMTBFにすることはメーカー的に可能なはずですが、SCSI HDDの方が高く売れ、かつミッションクリティカルな環境でATA HDDを使うような顧客はほとんどいないはずなので、必然的にメーカーは「安価だが壊れやすいATA HDD」と「高価だが壊れにくいSCSI」というラインナップを打ち出してくるわけです。

またどこの国のメーカーの製品かということも意外と重要になってきます。アメリカ人的な発想では壊れれば交換すればよいという発想でMTBF的には多少劣るが安い製品を出そうとするのに対して、日本人的な発想では良いものであれば高くても売れるという発想でMTBF的には優れているが高い製品を出そうとします。

ということでまとめるともし壊れにくいHDDを選ぶのだとしたらサーバ用に作られた日本製のSCSI HDDがベスト、逆に壊れやすくてもよいから安いHDDを選ぶとしたら一般用に作られた外国製のATA HDDを選択するのがよいということになります。

※余談1:僕が他の会社の技術者仲間から「うちのサーバは壊れやすい」と聞く場合、確認してみるとほぼ例外なくATA HDDを使っています。うちはSCSI HDDしか使わないためかHDD故障でシステムが止まったことはほとんどなかったです。

※余談2:HDD故障で一番多いのは初期不良ですので、安定したHDDを使いたいと考えるのであればサーバを購入したらいきなり使わないで品質テストとして1週間くらいHDDを回してみることをお勧めします。ちなみにこのような品質テストをお客様に納品する全HDDで実施しているという良心的なサーバメーカーを僕は1社知っています。もしこのメーカーについてご興味があるかたはメールで問い合わせいただければお教えします(宣伝になっちゃうのでここに書くのは控えました)。

※余談3:HDD故障を引き起こす原因で最も多いのは熱だそうです。うちはデータセンターを使っていて熱は特に気をつけていたため、熱が原因の障害というのはこれまで発生したことがありませんでした。よってHDDが熱に弱いということは全く知りませんでした。ストレージに非常にお詳しいD社のSさん、ひょっとしてこれって常識でした?

|

« パーツを管理しよう | Main | 壊れにくいサーバについて考える(パワーサプライ編) »

サーバ・OS」カテゴリの記事

Comments

たぶん単なる書き間違いでしょうけど、間違い発見。「SCSI HDDよりATA HDDの方が価格が高いので」と「MTBF的に見るとSCSI HDDのほうがATA HDDのほうが長いことが普通です」
うちは、SCSIをエージングしてから使ってますが、DBでゴリゴリ書きまくるとそれなりに死んじゃいますね。SANにしました。

Posted by: yama | January 17, 2005 at 06:43 AM

うそお SCSIでも結構壊れるよ:-)

HDDの「壊れやすさ」を聞く場合、サーバの形状と設置状況によって全然変わってくると思います。

いわゆる一流メーカ製のHotswap可能でHDD用の空気流が作ってあるシャーシとかに入っているようなサーバを、空調の効いた部屋で使ってる場合に比べると、普通のDesktopケースに毛が生えたようなのに普通に内蔵してあるだけのサーバを普通のオフィスとかにおいてあるサーバで24時間運用している、とかは格段に壊れやすいような気がします。

ま、たいがい前者がSCSIで後者がATAなので、そういう意味ではATAのが壊れやすいと思いますけど。

僕はMTBFが長いことを詠っているM社の「サーバ用」ATAディスクを後者のような状態で使って、半年で二回壊したことがあります。さすがに反省してHDDケースをきっちりしたのに変えて空気の流れる場所に変えました。ディスクの玉より箱が重要ということで。

あとSCSIがATAより壊れにくい可能性があるとすると、単にサイズあたりの容量密度が低いわけで、そんだけマージンとってあるってことですよね。壊れにくいかもな、と。

ディスクが壊れないわけがないので、仮にSCSIが4年で3%壊れるところをATAが10%壊れるとしても、壊れることには変わりないわけで、だったらRedandancy確保して対処した方が正しいわけで、だったらSCSIでRAID5にするぐらいならATAでミラーリングの方がいいや、とかそのような発想もあり得ると思います。

そういうわけで僕はパフォーマンスが欲しいときとお金がいっぱいある時以外はディスクの玉はATAでいいやと思っています最近。

Posted by: とおやま | January 17, 2005 at 09:39 AM

コメントありがとうございます。yamaさんご指摘感謝です。書き間違えでしたので直しました。

あととおやまくん、SCSI HDDでも壊れるという考え方は正しいと思います。それを意識した冗長化構成も当然必要ですね。ただサーバ台数が多いと、壊れやすいHDDばっかり使っていると毎日のようにいずれかのマシンのHDDが壊れたりするので手間がかかるという点では故障率の高いATA HDDを使うのは大規模サイトのシステム管理者の立場から考えると辛そうです。

Posted by: sanonosa | January 18, 2005 at 05:12 PM

仕様上、SCSIバスにはデータパリティがあるがATAにはデータパリティがありません。このためSCSIとATAではバス上のデータエラー検出性能が異なります。ATAはバスターミネーション仕様があいまいで異なるコントローラメーカー間での接続における電気的な互換性がよくありません。これらからHDDが破壊されることよりもデータの信頼性はSCSIのほうが一般によいと思います。

Posted by: 名無しさん | January 18, 2005 at 10:05 PM

名無しさん、コメントありがとうございます。
へ~、そんなことがあるんですね。メモメモ。

K社CTOのSさんへ。やっぱりSCSIのほうがいいみたいですよ!(高いけど)

Posted by: sanonosa | January 19, 2005 at 10:29 AM

あと、Bad Sector 発生時の予備領域の比率がSCSIの方が上とかいう話もありますね...

まーあと、DELLとかだとやっぱSCSI RAIDカード(PERC)の方がATA RAID カード(CERC)より気合い入ってるなーとか、周辺要素も多いですね。

シャーシさえしっかりしてればATAでいいと思うんですけどね。パラレルアクセスがやたら多いとかじゃなければ。

Posted by: とおやま | January 19, 2005 at 03:32 PM

昔のATAには確かにエラー検出機能がないため、データ化けを
検知できませんでしたが、今のATAをUDMAモードで運用して
いれば、CRCが付加されていますので、エラーを検知できます。
UDMAモードで動作しているかどうかの確認は必要ですが。

Posted by: soda | January 21, 2005 at 10:09 AM

Post a comment



(Not displayed with comment.)




TrackBack

TrackBack URL for this entry:
http://app.cocolog-nifty.com/t/trackback/32004/2594702

Listed below are links to weblogs that reference 壊れにくいサーバについて考える(HDD編):

» [テクニック][Program][備忘録][格言]サーバー用HDがタフネスな訳 [U20プログラミングコンテストで成果を出したい d金魚による dKingyo Utility Toolkit 日記]
http://d.hatena.ne.jp/washita/20060514#p1 より。 私のHDもそろそろ寿命とHDD Healthから警告が来ているので考えさせられます。 http://f.hatena.ne.jp/studiokingyo/20060410104807 でも壊れる予想日付を見ると2019年なんですけど・・・グラフと予想日付が合わない・・・... [Read More]

Tracked on May 21, 2006 at 12:51 PM

« パーツを管理しよう | Main | 壊れにくいサーバについて考える(パワーサプライ編) »