服务器租用用户经常会遭遇服务器莫名其妙不能访问或者访问速度奇慢的情况,通过自身操作权限不能彻底解决。这时候往往就是服务器出现日常性的故障,那么如何来排查故障从而保障服务器的正常运行,运维工程师通常从以下思路来开展:
1、硬件故障
硬件冲突:电源故障或电源供电不足,可以通过对比计算服务器电源所有的负载功率的值来作出判断;
硬盘故障(通过扫描硬盘表面来检查是否有坏道);
内存故障(可以通过主板BIOS中的错误报告和操作系统的报错信息来判断);
主板故障(使用替换法来判断);
CPU故障(使用替换法);
板卡故障(一般是SCSI/RAID卡或其他pci设备也有可能造成系统死机,可用替换法判断处理)
2、软件故障
首先查看操作系统的系统日志,可以通过系统日志来判断部分造成死机的原因;电脑病毒的原因;系统软件的bug或漏洞造成的死机,这种故障需要在判断硬件无故障后做出,而且需要软件提供商提供帮助;软件使用不当或系统工作压力过大,可以请客户适当降低服务器的工作压力来看看是否能够解决。
总之,系统死机故障需要一系列的检测来发现问题的所在,不能一遇到毛病就重装系统,这不是解决问题的唯一办法。通过上面的介绍,相信大家或多或少都能了解机器故障的病因,对症下药才是解决办法的途径。
通常如何判定一个机房的实力不仅仅通过机房的设备设施的先进性,同时运维工作人员对于服务器的管理和故障处理更能体现一个机房的可信赖程度。