工程师笔记|我是如何排除服务器磁盘阵列故障的?

2021-03-29 09:57     新华工控网/www.gdnewsw.com

image.png

服务器支撑着整个企业的信息数据,在日常运转过程中,服务器也会因为其复杂的硬件结构、繁琐的运行原理而出现一些大大小小的故障,而如如何快速排查诊断并修复服务器的故障事关整个公司业务正常开展与运作。

今天分享一篇读者来稿,一起来看看他是如何排除和应对工控服务器磁盘阵列常见故障问题的?

工控服务器磁盘阵列故障排除法

我们生产线有两个服务器机房,由于一年四季运行,出现服务器宕机问题也是常有的事,不过我们生产线服务器都是双备份冗余配置,一台出现问题对生产影响不是太大。这么多年来就遇到的问题和排查方法及注意事项个人做了一些记录和汇总,正好看到威刚工控举办相关主题征文,在此与大家一起分享。

image.png

硬盘每时每刻都在读取数据,不间断的工作使得出现故障的可能性也比较大,而硬盘发生故障的时候,通常会有一系列表现:

1、故障提示:这是最直接的一种故障表现方式,硬盘也具备自我监测的能力,当硬盘中的部件与我们设置的正常范围值不同时,就会自动发出提示信息。我们就可以根据这个提示信息,进行相应的维护。整理一下服务器,检查内部安装和接口,再观察一段时间,仍然出现故障提示,更换硬件。虽然有可能是背板或者主板问题引起一般,但这种情况不太多。

2、运行报错:硬盘运行出错表现在扫描时自身出现错误,显示坏道等情况,这个时候表示硬盘部件出现问题,需要将其修复或隔离。我们发现此类错误一般都是更换硬盘,因为即使修复隔离也说明硬盘带病工作,很容易罢工,对生产线产品和质量会造成损失。

3、硬盘无法读取或识别: 启动服务器时,硬盘无法正常被读取,或者被识别后,系统仍然无法显示硬盘,这就证明硬盘出现错误。更换硬盘至原先可以正常检测到的槽位,根据现象排查故障,如果故障现象一样,再继续排查一下硬盘背板是不是故障,最后硬盘更换一般都是原厂备件更换,避免硬件出现兼容性不匹配问题,运行不稳定。这个现象我们也遇到过,着实让工程师们头疼。

4、初始化死机: 一旦初始化就出现死机,虽然也有可能是内存、病毒感染等问题,但最可能的还是硬盘故障,出现这种情况时,先通过清除CMOS,恢复资源初始配置,扩展第三方I/O卡属于该机型兼容列表TPL,仍然不行考虑更换硬盘。

5、蓝屏、频繁重启:内存和主板是导致硬件蓝屏的主要原因,可对内存进行校验排查,其他的还有杀毒软件、驱动问题等。分析日志记录排查故障是工程师朋友常用的方法。

6、外设故障引发故障:键盘会导致开机报错、显示器会导致黑屏…

学会利用状态指示灯,高端服务器一般都有状态指示灯,不同的机器指示灯含义不同,通过指示灯的颜色、闪烁、亮灭排查故障结合本身日志记录确定问题,是工程师人员基本要求。

总的来说,在服务器安全运行管理中,可能造成服务器安全运行的威胁因素远不止以上几个方面,要保障服务器安全运行,工程师人员要有一定的技术能力和维护经验,给企业营造一个安全稳定的运行平台。

image.png

如何避免服务器出现上述的存储故障,选对合适耐用的存储产品很关键。对此,威刚科技推出一系列高品质、高性能存储解决方案。

image.png

PCIe M.2 2280固态硬盘

  PCIe超高速界面,短时间内处理海量数据,充分满足IoT物联网/云计算/边缘运算的需求;

  总擦写次数(P/E cycles)达 3K次,耐用可靠;

  LDPC ECC纠错机制,确保数据传输准确稳定。

image.png

(点击查看大图)

 

DDR4 2666/3200超高速内存

  高效能、低延迟,充分满足IoT物联网/云计算/边缘运算的需求;

  高达32GB的大容量,轻松存储海量数据;

  严选原厂颗粒,质量优异,耐用可靠。

image.png

(点击查看大图)

 

征稿启示

威刚工控面向广大用户朋友征稿啦!

文章体裁不设限,

字数在1000-1500字。

一经征用即可获赠

新款SSD移动硬盘一个。

欢迎分享你和工业存储的那些事儿~

有意向的朋友发送邮件至

1316073703@qq.com

主题注明“征文”。

P.s 文章要求原创,且在【威刚工控】平台首发哦!

*威刚工控保留修改奖项与活动内容的权利

[责任编辑:刘旺乘]