在服务器的某一个硬盘出现故障时,一般服务器都会有一个Offline指示灯提示,此时要求用户更换一个完好的相同硬盘,并且重新校验算法。按理说这是非常正常的操作过程,但是殊不知很多RAID灾难就是由此而引起的。
以一个硬盘数量比较多的RAID5磁盘阵列为例,很可能同时采购的多个硬盘中,有几个已经出现了不稳定现象。而服务器的Offline提示可能并不是最准确的,经常会误报(也有硬盘不稳定的因素)或是遗漏其它也同样存在隐患的硬盘。在看似平常的强制上线过程中,硬盘需要进行大量的读写操作,此时就是一场严峻的考验:运气好的话自然平稳度过,而运气不好就会导致其它硬盘突然掉线,此时就令问题更加棘手了。
当然,出现一个硬盘掉线提示,或是在RAID容错范围以内的掉线提示,强制上线还是必须执行的操作。但是在进行这一步前,强烈建议大家检测一下每一个硬盘的稳定性情况,这样才更加保险。大家可不要忽视这样一个小细节,往往这一步能够让RAID服务器没免于瘫痪。
