注册 | 登录 忘记密码? 51cto首页 | 博客 | 论坛 | 招聘
热点文章 服务器监控策略浅谈
 帮助

服务器内存错误导致系统蓝屏死机【经验】


2006-11-17 01:04:48
 标签:内存 蓝屏 服务器   [推送到技术圈]

前言:上周接浦东一客户报服务器频繁蓝屏并死机,导致DHCP等该服务器承载的服务停止运行。客户服务器型号为联想万全R510,操作系统使用正式版windows server 2003 SBS。
 
事故处理流程及分析:
 
第一次:接客户报告,赴客户处现场勘察。得知服务器在未经非授权操作及误操作的情况下自然死机,并蓝屏。记录蓝屏错误代码0x000000d1 (0xc5f32820, 0x00000002, 0x00000008, 0xc5f32820)。
分析:首先怀疑软件问题导致蓝屏错误并死机。1.确保所有驱动程序可靠;2.删除serv-u等服务器应用软件,仅保留反病毒软件Mcafee和数据库SQL;3.保证服务器已更新并安装windows2003更新文件。后运行观察。(或运行于安全模式下)
 
第二次:次日接客户报告,反映服务器发生同昨日故障。赴客户现场勘察。确定错误状况和昨天相同。记录蓝屏错误代码0x00000050 (0xc1e1e2a0, 0x00000000, 0xbf899f25, 0x00000000)。
分析:通过在查询相关错误代码信息,发现0x000000d1和0x00000050 错误大部分发生于服务器内存硬件问题,且由于昨天已基本排除服务器软件因素。在致电联想北京和微软进行相关支持后,更加明确此服务器内存故障的可能性。故立即联系联想北京总部,确定次日上午10点安排联想技术工程师协助进行硬件检测。
 
第三次:按照约定于10点到达客户处,与联想技术工程师俞先生对服务器内存进行检测,使用工具memtest。果然在检测刚刚开始便不断提示内存错误并报警。在与联想总部说明情况并安排发送内存备件后,与俞先生约定次日上午更换内存。
 
第四次:按照约定时间到达客户处,与联想分销商技术人员更换服务器内存。并进行测试,使用工具memtest,这次检测过程顺利结束。在重装相应服务器应用软件后运行观察。
 
第五次:隔日没有接到客户报告,VPN连接到客户网络,远程连接服务器,检查事件日志,服务器运行一切正常。
 
至此,本次服务器事故解决。
 
写在最后:由于此次事故中服务器刚刚采购不足1个月,因此一开始对硬件问题并不重视,导致直到第三次现场服务才最终确定是内存问题,花费的诊断成本较高。蓝屏错误代码是估断问题很重要的线索,由于整串代码后4组在各个环境中都不相同,因此只需查询第1组的代码翻译。




    文章评论
 
2006-11-17 16:34:09
很有价值,收藏

2006-11-17 17:48:30
这个服务器当了几天呢?

2006-11-17 21:24:23
to 7layer :由于不是常驻现场工程师,中间环节较多,加之硬件问题较难判断,导致本次事故处理周期长达1周。严格意义上来说,非常不合格。聊以自慰的是这个服务器没有扮演重要角色。

2006-11-17 22:23:44
记录非常清晰有条理,我很喜欢这种风格!

2006-11-18 00:20:37
没想到,发生在我身边的事情这么复杂,辛苦了LZ

2006-11-18 08:35:39
呵呵。开个玩笑。要不咱也不买联想的是吧。

2006-11-18 17:39:38
to sam :呵呵,我也喜欢简单一点,最讨厌那种洋洋洒洒长篇大论用来忽悠客户的东西。做技术,我喜欢那种点到为止,心领神会的风格。

2006-11-18 17:51:38
to 7layer:业内联想的口碑本来不好,硬件质量差,服务推诿,要不是因为国产做的还凑合,收购IBM给国人长脸,谁会买联想的服务器。 第一次买联想的服务器没用1个月就换内存,跟HP比简直太差劲了。

2006-11-18 17:58:04
to ryan :因为是第一次碰到这样的问题。如果下次你碰到类似的案例,没准能比我更顺利的解决。

2006-11-18 22:19:36
想来也是服务器。怎么也是ECC。不知道他们是不是没烤就扔出来卖了。

2006-11-19 03:07:07
to 7layer :我打电话给联想报怀疑新服务器内存硬件问题的时候,联想的工程师还信誓旦旦的说联想的服务器出场前都经过了严格的质量测试。。。

2006-11-20 10:19:54
弄的真麻烦 周期太长了.
如果LZ会测试内存.那有那么麻烦.鉴定了就可以叫联想直接来更换内存

2006-11-20 11:28:16
to 怕水的猫 :的却如此。之前都是使用HP和IBM的服务器,一般1年内很少出问题,几年的老服务器怀疑出了硬件问题也习惯叫HP的工程师上面检测。这次意外倒也养成了自己进行硬件测试的习惯。

2007-04-09 10:56:34
多谢.

 

发表评论

昵   称:
验证码:  点击图片可刷新验证码  博客过2级,无需填写验证码
内   容: