|
主题: 随机性死机故障分析与排除
|
 永远的闪客
职务:普通成员
等级:3
金币:10.0
发贴:1440
注册:2000/12/7 17:57:47
|
#12001/2/5 12:10:06
随机性故障是计算机使用过程中经常遇到的一种常见故障,由于出现死机故障的时间不确定,所做操作性质不固定,而且死机发生时,显示的现象也不统一,所以故障发生的范围不易确定,给维修工作带来了一定的难度。 下面是本人在实际工作中对随机性故障分析与维修的一些体会,仅供大家参考。
根据大量的维修实例分析总结,随机性死机故障的产生的原因主要是以下三个方面:
一、 环境因素
环境因素对于机器的正常运行有着很大的影响。计算机对环境的要求主要包括:温度、湿度、清洁度、照明度、电网干扰、电磁冲击、外界振动冲击、静电、噪声、防水、防火、防震、接地系统、供电系统等方面内容。其中尤以温度、湿度、静电、接地系统、供电系统对机器的正常运行影响最大。由于机器工作环境,如灰尘、潮湿引起芯片间线路短路或插拔件接触不良,都有可能引起系统死机。
根据实际维修统计,环境因素造成的随机性故障占故障总数的10%左右。
二、 软件原因
软件系统引起的随机性死机包括两种情况。一是病毒破坏,虽然有时可以通过冷、热启动再次启动机器,但运行不久又会死机。二是应用软件与操作系统不完全兼容之间有冲突或者与硬件固有特性发生冲突,这种死机大多没有键盘响应,只能通过冷启动再次启动机器。
对于软件原因造成的随机性故障的检查方法是,可以使用干净的引导盘重新引导机器后,再运行杀毒软件清除病毒。对于应用软件与操作系统有冲突,建议采用修改程序配置或改变机器硬件配置相结合的方法解决。(这里不作为详细讨论)
根据实际维修统计,软件原因造成的随机性故障占故障总数的20%左右。
三、 硬件原因
硬件系统引起死机,主要是由于机器内部元件质量、兼容性或匹配不当引起的。通常包括:
1、可插拔芯片接触性故障。主板上有一些可插拔芯片接触不良,这类故障极易发生在CPU芯片、内存芯片以及各种扩展槽。AGP扩展槽普遍存在插不紧的问题。
2、芯片工作时序不匹配。在一个电路中如果几个芯片共同完成一个功能,如果几个芯片之间的执行速度不匹配,当一个信号在芯片内部通过逻辑变换,传输所需的延时时间比较长,就容易产生时序故障。或时序电路的控制时间关系要求比较严格,偶尔发生时序信号的漂移。这种情况最常见于组装的兼容机。因为有的厂家从利润、成本方面考虑,对装机芯片的质量、性能考虑不周,极易发生整机芯片速度偏低,当运行到一定的总线周期时产生时序竞争,引起时序混乱,使系统总线流程冲突而死机。此外,由于采用了不同厂家的板卡或芯片存在不完全兼容的现象,当时钟频率过高时,也是造成死机的原因。
3、热稳定性差。所谓的热稳定性差是指机器在开始时候运行正常,运行一段时间后,随者芯片温度的上升,开始出现死机。关机后,冷却休息一段时间后开机又可以正常工作,之后又出现死机。其主要原因还是在于元器件本身质量不过关。
4、芯片驱动能力差。因为每个芯片的扇出值是固定的,在电路设计中要求芯片的输出信号去驱动的芯片数必须小于允许的扇出值。如果芯片的扇出值不满足其额定指标,当系统或某个电路连接较多设备时,就会造成芯片工作死机。这种故障经常出现在主板上的I/O接口,内存的地址或数据驱动芯片。
5、抗干扰能力差。芯片的电源线和地线在印刷电路板上的布线宽度过小,线与线之间距离过近,或芯片之间的电平匹配不好不好,使传输信号有“振荡"或“反射"造成信号干扰,或由于其它原因使板上芯片引脚之间造成电容或电感,造成芯片的抗干扰能力而引起系统死机。
根据实际维修统计,硬件原因造成的随机性故障占故障总数的70%左右,是造成随机性故障的主要原因,也是本文重点介绍的部分。
四、随机性故障分析与维修方法
该类故障的检查原则是,首先根据故障现象,推断出故障的性质,然后根据这种推断,利用逻辑笔、示波器等工具仪器检查硬件线路上的相应信号是否有随机的干扰或时序漂移等现象,如果有则找到相应的硬件进行维修和更换。
一是首先检查是否有接触性故障。在关机状态下取下各种扩展卡,用手指卡住板卡边缘轻轻弯折、敲打,然后在开机通电状态下,用手指按压板卡边缘,主板上的CPU插座、内存条以及各种插头或插座,如果在某个情况下机器可以启动了,则说明发生了接触性不良故障。
二是如果经反复试验证明不是接触性故障,就要检查是否是控制电路的时序故障。重点检查:
1、系统控制电路芯片,主要是地址总线和数据总线芯片,ALE的地址锁存信号,以及主板上的南、北桥芯片等其它门阵芯片。
2、系统内存控制电路、驱动电路,主要是RAM的行选通信号RAS、列选通信号CAS、行列地址转换控制信号-ADDRESL和内存数据读出驱动、内存芯片速度匹配关系。
3、系统各种时钟信号电路,主要是SYSCLK、PROCCLK、PCLK、DMACLK。
通过使用100MHZ以上的高频示波器检查上述信号,希望发现某个信号在某一瞬间出现不正常状态,如时序漂移或毛刺等干扰信号。发现后找到相应的芯片进行更换。
三是热稳定性差是随时性故障的另一种主要的表现形式,随着夏季的到来或超频使用CPU等,这类故障变得越来越频繁。检查时可以使用电吹风距离打开的机箱20?30厘米处进行加热,当机箱内温度上升到60?70℃左右时,故障可能开始频繁出现。当机器置于18?25℃的空调房间内,如果故障发生率大大降低,则确定是热稳定性差故障。再使用示波器主板上的数据总线、地址总线、控制芯片的进行输出波形的检查,如果发现有明显的干扰信号,则找到对应的芯片进行更换。
四是信号之间的相互干扰和芯片驱动能力差问题也是造成随机性故障的常见原因之一。在维修中发现,此类故障多产生在74FXX芯片与74LSXX、ALSXX芯片之间。
五、实例分析
故障现象一:一台586兼容机,出现随机性死机。
故障分析:由于上述现象是随机出现的,位置、性质均不固定,按上述方法步骤进行检查,当用手按住主板上的CPU插座时,机器可以启动了,说明是接触性不良引起的故障,同时也反映出故障可能在CPU的插座上或周围的电路上。取下CPU芯片上固定的铝制散热片,发现它与CPU接触不紧,在散热片与CPU芯片之间的两个小角垫上两个小片厚纸片,故障排除。
故障现象二:一台586兼容机,有时运行几天也不死机,有时一两个小时出现一次死机,出现故障时显示“内存校验错误",有时显示“内存错误"。
故障分析:由于有错误提示,则可以较快地确定出故障范围,基本上是内存部分有故障。经反复检查后证明不是接触性故障,用替换法也排除了内存条本身的故障。最后用示波器检查内存的时序控制电路,内存芯片列选通信号(CAS),系统地址锁存信号(ALE),内存行列地址切换控制信号(-ADDRSEL),结果在两个小时内发现ALE信号曾出现过两个连续的“毛刺",这时机器已经死机。由于以上信号均是由主板上控制芯片组输出的,不便于维修,更换主板后,故障排除。
故障现象三:一台586兼容机,有时一两个小时出现一次死机,有时键盘输入或打印时死机,并伴有麻电感觉。
故障分析:联想到最近有时操作键盘还伴有麻电感觉,因此可以认为该故障是由机壳表面的静电高压对机内低电位点放电所引起的,产生这种放电现象的原因一般是地线接触不良,或显示器高压泄漏,经过重新连接地线和更换显示器后消除了麻电感觉,使用替换法更换主机后故障依旧,由此可以判定是环境因素造成的。经检查发现离计算机一米左右有一个负氧离子发生器,移开后,故障排除。
故障现象四:一台586兼容机,随机性出现死机,故障发生时所操作的性质也固定。
故障分析:出现死机故障的时间不固定,故障发生时所操作的性质也不固定。根据对随机性故障维修的经验教训,提高机器运行时的工作温度,可以大大提高故障的发生率。使用电热吹风机在距离机箱20?30厘米左右开始吹风,使机箱内的板卡和元器件普遍上升温度到70℃左右,开机后,死机次数明显增加。对主板上数据总线、地址总线、控制芯片的输出波形进行检查,用示波器测量数据锁存器、命令译码器、总线收发器的输入/输出端的信号状态,进行重点检查,发现总线收发器74LS245芯片的输出端信号有明显的“毛刺"信号,更换该芯片后,故障排除。
|
 月满西楼
职务:普通成员
等级:2
金币:0.0
发贴:617
注册:2001/1/28 10:12:51
|
|
 我就是我
职务:版主
等级:6
金币:14.0
发贴:5466
注册:2004/1/13 17:02:03
|
#32001/2/5 17:30:38
多试几遍就可以知道了
|
 永远的闪客
职务:普通成员
等级:3
金币:10.0
发贴:1440
注册:2000/12/7 17:57:47
|
#42001/2/5 18:31:12
我也没有看你的机子。也不敢说.~~~~~~~只能说以上的都有可以能~~~~~试一下~~
|