意见箱
恒创运营部门将仔细参阅您的意见和建议,必要时将通过预留邮箱与您保持联络。感谢您的支持!
意见/建议
提交建议

服务器raid5硬盘下线怎么办?

来源:恒创科技 编辑:恒创科技编辑部
2024-02-02 15:12:07

最近用户反馈服务器的raid5硬盘下线,最早一块硬盘离线,管理员没发现,直到另一块硬盘掉线导致系统瘫痪才发现故障。联系官方客服,对方建议将其中一块硬盘强制上线,但同时指出操作有风险。管理员将某盘强制上线后,发现操作系统启动异常,于是关掉服务器,联系恒创运维寻求帮助。

自带raid5硬盘服务器http://www.hkt4.com/dedicated/hk.html

一、服务器raid5硬盘下线故障分析:

RAID5仅支持一块硬盘掉线的冗余保护,当两块硬盘先后离线后,RAID5无法通过运算提供完整数据块,RAID5便会下线。控制器为了稳定起见,只要有硬盘下线,便不会自动上线,这样不通过人为干预,RAID会进入瘫痪状态。通常情况下,因RAID控制器的敏感性,掉线的硬盘多数不会有严重的物理问题。

因为一般情况下硬盘都是完好的(掉线是因为信号受阻,电源波动或控制器BUG等随机原因),所以数据恢复的可能性较高。强制上线具有较大的风险,如果上线错误,会导致控制器自动做出一些不可逆操作,如果再进入操作系统,因文件系统不一致,会启动修复,继而导致全部硬盘数据不一致,本案例即是属于此类问题。


服务器数据恢复过程:

首先对服务器中所有硬盘进行完整备份,在备份过程中发现多块硬盘已经存在坏道但没有下线,原因是raid没有读到硬盘坏道。备份完成后分析原服务器的raid组成结构然后虚拟出raid环境对raid结构畸形验证,把服务器后期破坏的结构进行人工修正,将修正后的数据导出到一台中间存储上临时存放。数据恢复的最后一步使用完好的硬盘在服务器上搭建新的raid5磁盘阵列,将恢复出的数据迁移到新raid中即可。检验恢复出来的数据一切正常,数据成功恢复。

二、服务器raid5硬盘数据恢复过程:

1、关闭服务器,将故障硬盘标好序号。恒创运维工程师备份所有硬盘,在备份后发现有多块硬盘已经存在坏道,只是RAID没有读到,暂时没有下线。

2、分析服务器内的riad磁盘阵列结构,获取raid相关信息如raid级别、条带大小、条带方向、块大小、硬盘盘序、数据校验方式等。构建虚拟RAID环境。

3、验证解析的文件系统和文件,确定数据无误后让用户亲自对数据进行验证。确认本次数据恢复结果完整,正确。修正部分后期破坏的结构后将数据导出到另一中间存储。检测虚拟结构是否正确,如不正确,重复过程。

4、确定数据无误后回迁数据。如果仍然使用原盘,需确定已完全对原盘做过备份,重建RAID,再做回迁。回迁操作系统时,可以使用linux livecd或win pe(通常不支持)等进行,也可以在故障服务器上用另外硬盘安装一个回迁用的操作系统,再进行扇区级别的回迁。

历时2天完成数据恢复。从上千万文件中抽样检测,绝大多数没有问题。在服务器数据恢复工作中,raid5两块硬盘离线的情况十分常见,由于raid5磁盘阵列支持一块硬盘离线时的荣誉保护,一旦多块硬盘处于离线状态,服务器便处于瘫痪状态,且不会自动上线。由于raid控制器具有一定的面感性,多数硬盘掉线紧紧是因为电源波动、控制器bug等随机原因导致,所以掉线盘可能没有严重的物理故障。


三、服务器raid5硬盘数据恢复结论:

一旦raid5磁盘阵列出现多块硬盘离线、服务器瘫痪的情况切记不要盲目进行强制上线操作,如果有足够的备用空间,可将源硬盘全部镜像。有两种方法(WINDOWS2003或DOS下,其他操作系统有风险):

1、可用相同或大于源盘容量的硬盘做为目标盘,将源盘全部扇区方式CLONE到目标盘。将所有盘做同样操作。

2、可将每块源盘完全以扇区方式输出文件到某大容量存储空间(如大容量硬盘、NAS、SAN、DAS等)

先排除是不是分区表的问题导致D盘丢失,如不是的话,最好不要自行操作了,服务器数据一般都是比较重要的,谨慎操作。关机,取下硬盘,对应的磁盘进行编号。通过底层数据结构进行分析,盘顺序、块大小、校验方式、数据走向,重组验证数据,有没有早离线的盘。

服务器的raid5硬盘下线的解决方案就这些,如有问题的话需要把offline的那块盘加入进行分析(有硬件故障先处理硬件故障后进行镜像)服务器数据恢复都是按照raid等级和盘块数 故障损坏情况收费的。后续没做其他操作的话,基本上可以完整恢复出来。数据重要的话谨慎操作,最好找当地的数据恢复公司吧。

上一篇: 程序员须知:用服务器跑代码是不是更快? 下一篇: 购买CN2专线香港VPS建站速度有多快?