您还未登录! 登录 | 注册 | 帮助  

您的位置: 首页 > 软件开发专栏 > 系统/运维 > 正文

当机房服务器异常时候,要这样做

发表于:2018-11-15 作者:佚名 来源:机房百科

一、机房环境

1.温度与湿度: 最佳工作温度:20-25摄氏度 极限工作温度:10-40摄氏度 湿度: 8-80%(在23摄氏度条件下)。

2.同时机房要保证服务器清洁. 机房应保持服务器清洁,若空气灰尘过多,很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损。定时使用皮老虎、刷子清除服务器灰尘。

二、电源

电压:要求电压稳定, 尖峰电压会损坏设备

电压范围:220V +/- 10%, 即200-240V, 50-60Hz

电源功率:视机器类型和系统配置而定

电源线:标准的零, 地, 火三相电, 其中零, 地电压不得超过3.0V.

电源接驳:用符合电流要求的空气开关或其他设备和主机电源线接驳,保证计算机系统的可靠工作应使用稳压电源和UPS,对于冗于电源的接入,采用两路单独输入.

三、硬件检查

检查服务器、磁阵的安装、电源线主机接线符合要求。

服务器状态检查:

1.当服务器处于启动和正常工作状态时,其前面板上的液晶显示屏上应无信息显示。

2.当液晶显示器上出现带数字和字母的信息时,说明有硬件告警。可以通过查询相关机型的面板报警数字信息查到相应告警原因,情况严重的,则要立即通知服务器厂商进行问题排查。

3.当服务器的状态灯出现橙黄色时,说明有硬件告警,此时要检查磁柜的电源、接线、硬盘等。如果有硬件故障则立即进行更换和更正,如果查不出具体问题,则需要联系相关厂商进一步诊断。

4.当硬盘工作正常时,与各硬盘对应的硬盘灯会呈绿色,如无读写,则绿灯一直亮,如该硬盘有读写操作,则绿灯会不规则闪烁,当硬盘损坏时或RAID出现问题时,则硬盘状态灯将熄灭,或者呈闪烁状态:以1~3秒的频率有规律地、不停地闪烁。

四、系统日常维护流程

(一)系统启动

系统启动正常顺序如下: 首先对外设(磁盘阵列、磁带库等)加电。 待所有外设加电自检完成后,主机加电正常起机。主机加电后,才能按POWER键起机.

(二)系统关闭 服务器系统关闭时,需要确认服务器的服务是否对现网业务有影响,同时需要对关闭的服务器运行中的程序进程确认,明确软件安全的关闭步骤,在进行关机操作。

2.3系统与数据备份

有效及时的系统备份是系统管理的非常重要的一环。当系统出现故障时,特别是文件系统被严重损坏或硬盘损坏时,常需要使用系统备份来恢复系统。在以下情况下应做系统备份:

1.新装机。在硬件及系统软件安装完成后,应做系统备份。

2.软件改动。系统软件或应用软件有改动时,应做系统备份。

3.定期备份。对系统进行定期备份,最好每三个月做一次备份

2.4 系统恢复

当系统发生比较严重的故障以致采取一般性维护手段不能在短期内恢复原系统,与上级确认后,可将最近一次的系统备份倒回机器内以全面恢复系统到最近一次做备份时的系统环境,然后可将当日的数据备份再倒回系统内。至此,系统可恢复正常运行。此后,应当厂商再进行整个事件的全面分析与回顾,以期找到故障发生的原因,并采取相应措施以杜绝类似事件再次发生。

(三)安全工作守则

a.统定期进行系统备份。

b.当有系统变更或进行操作系统补丁安装的时候,必须作一次系统备份。

c.在发现有硬盘故障的时候,注意当天的数据备份。在更换硬盘的时候,请确认当天数据备份已经完成。

d.在更换敏感的电子元件,时候一定要防静电。

e.在插拔外围设备的时候,请把外围设备下电。

f.在进行文件删除的时候,请留意当前路径是否正确。

g.在进行文件解压缩的时候,请留意参数和路径。

五、类、故障定位、故障排除

根据实际运行的系统中碰到问题,总结出了以下几种常见故障及其定位方式和解决方法。

1.硬件故障

硬件故障有很多种,对系统产生的影响也不一样,这里按其故障对系统的影响程度分:致命影响的硬件故障和只影响功能的硬件故障两类进行硬件分类:

其损坏对系统产生致命影响(将使机器宕机或无法启动)的硬件包括:

主板、CPU、RAID卡、电源模块、风扇、本地硬盘、内存损坏等等

这些设备的损坏等将使系统无法完成自检、引导和启动,液晶显示屏上都将有错误信息,可根据液晶显示屏上的错误码对照错误原因,如果是工作状态下出现这些硬件损坏,则系统将被挂起或宕机。

其损坏对仅对系统产生功能影响(机器不会宕机并能正常启动)的硬件包括:

网卡、本地硬盘有坏块、显卡、和其他外围设备 这些设备的损坏只影响特定功能,如网络功能、显示功能、访问磁阵的功能等,对于本地硬盘有坏块的情况,则要看坏块中是否包含了重要的系统文件,如果不是重要系统文件,则系统功能不受影响,但也建议立即更换该硬盘。

故障定位和排除: 液晶屏上的错误码

根据错误码确定是什么硬件出了故障,对系统来讲,原则上必须业务切换使得损坏服务器离线不影响用户使用的情况下,然后修复故障机器,恢复系统。

2.磁阵故障

磁阵引起的故障是目前碰到的最频繁、危害最大的故障,据不完全统计,其故障覆盖到总故障的70%以上,具体来讲,可能引起磁阵故障的环节包括:

磁阵硬盘、主机上的RAID卡、与主机相连的SAS线、硬盘的位置和接线方式、以及盘柜使用的电压及周围磁场、磁阵/硬盘/RAID卡等都可能造成异常。

磁阵的问题是最复杂的,一般有物理损坏的原因也有环境原因,这是主因,如接线、插盘位置不符合要求、未及时查看系统告警等造成系统中断等辅因。按照经验,不管是什么硬件故障导致故障,系统都会产生告警,如果能及时发现问题并采取措施,如果存在硬件故障时,可从状态灯上观察到:

当单块硬盘出现故障或未被使用时,其面板上的硬盘状态灯会不亮 阵列的状态灯黄灯会亮 服务器的磁阵所配置的RAID卡一般都带有一块充电电池,该电池用于在突然停电的情况下。