时间:2024-09-03
康京山,李科,任伟光,刘垚鑫
(中国电子科技集团公司第五十四研究所,河北 石家庄 050081)
高加速寿命试验(HALT:Highly Accelerated Life Testing),在有些场合也被称为高加速极限试验、高加速应力试验和可靠性增强试验[1],与大多数传统的可靠性试验方法不同,其目的不是为了评估产品或产品组成部分的可靠性指标,而是为了将产品可能存在的薄弱环节激发为可检测的故障(或失效),从而组织分析改进,提高产品的可靠性[2]。
为了大幅度地缩短试验时间或减少所需样品的数量,在HALT过程中,会施加远超出产品预期使用的环境应力即产品规范极限的应力。这种过试验(Over-test)往往会给试验结果带来不确定性。有可能在很短的试验时间内(如几天)暴露出原本需要长期使用才会表现出来的缺陷[3]。在研发早期,采取改进措施的成本低,对研制计划影响小。但不幸的是,也有可能出现最坏情况,即激发出正常使用不可能发生的故障模式。如果对于这样的故障模式也采取改进措施,则会对产品造成过设计(Over-design),不仅对于可靠性的提升没有实际意义,反过来,为了检测、避免或补救这样的故障模式而采取的措施可能导致软硬件设计更复杂,反而会降低产品可靠性。另外,故障分析和处置难度大,耗时长,将导致试验停滞,影响试验和研制进度。
许多文献给人的印象似乎HALT可以很简单地得到有意义的结果,但在现实中并非那么容易[4],甚至充满了不确定性。为了减少这种不确定性,取得对提高产品可靠性真正有价值的试验结果,要求试验团队拥有丰富的经验和类似产品的数据作为支撑,对实施细节做出恰当的考虑。笔者分享了HALT-分析-改进(TAAF)实践经验,对某小型电子设备试验情况进行了案例分析。
试验目标不同,对于受试品(EUT)有不同的要求。可能的目标有两个,具体的试验可以有不同的侧重之处。
a)发现缺陷
在研发阶段的早期,发现产品的外在缺陷,改进设计并予以纠正。
b)测试裕度
产品的工作裕度或破坏裕度是指产品的工作极限或破坏极限与规范规定的应力之差。通过HALT,可以测试出产品的工作极限和破坏极限,可以判断裕度是否满足要求;若不满足则通过采用新设计、新工艺或新材料来拓宽裕度,也可为将来批量生产开展高加速应力筛选(HASS:Highly Accelerated Stress Screening)时合理地选取筛选参数提供依据。
外在缺陷(Extrinsic defect)也被称为外部缺陷,是指产品在设计和生产过程中造成的缺陷或者薄弱环节,如果能经济地消除该类型缺陷将有效地提升产品的裕度[5]。与之对应的概念是固有缺陷(Intrinsic defect),指与元器件的设计、材料、工艺和装配或封装相关的,将在元器件的设计规范所允许的条件范围内引起的缺陷。
HALT重点要排除的是外在缺陷,通过改进产品的设计和工艺来提升可靠性水平。至于固有缺陷,是元器件自身的缺陷,虽然也可能会暴露出来,但只要试验条件没有超出其许可范围,则应通过质量控制体系解决。
EUT的选择包括以下3个方面。
a)形态
选择要在产品的哪一个装配层次如电子模块、电路板卡、装置或设备、分系统或系统进行试验。在成本、周期、试验或测试手段允许的情况下,尽可能地在较低的装配层次进行,有以下好处[4]:1)易以采取纠正措施;2)易以施加高应力;3)易以监测缺陷;4)易以采用通用试验技术。
b)状态
首先,EUT应能代表产品的质量水平;其次,对于以寻找裕度为目标的试验,宜选择经过前期HALT将产品的外在缺陷消除之后其技术状态相对稳定的产品作为EUT。技术状态频繁变化时,测定裕度的实际意义不大。
c)数量
应由拟进行的应力试验的数量及预期故障模式的数量来决定。从进度角度考虑,出现故障后需要进行故障分析时必须停止试验,而且并不是所有的故障都能修复,按每种试验至少保证1件EUT并且安排2~5件EUT作为整个试验备份来估计,推荐的总EUT数量为7~10件[6]。如不能提供,在出现故障时只能暂停试验组织维修,试验进度的风险增大。从试验结果考虑,EUT数量越多,得到的故障模式将越完备,故障模式分析也将更准确,得到的裕度也越可信。
HALT可施加的应力包括但不限于低温、高温、温变、振动、电源通断切换、电源拉偏或反向偏压、时钟偏移、高压高湿和静电放电等。施加何种应力,应结合产品的特点,按尽可能有效地激发产品敏感部位的故障模式为原则做出选择。可采用“敏感点-应力分析”方法[5],即根据产品设计和工程经验,列出EUT的主要敏感点,分析各种应力对每个敏感点是否有激发作用,经过归纳合并,选择具有较高激发性的应力。这些应力可单独施加,也可组合施加。
HALT设计主要包括:确定试验项目并为每个试验项目确定相关参数。
1.3.1 确定试验项目
根据选取的试验应力,设计若干试验项目。对于一般电子产品,冷、热、温变、振动和电源通断具有较高的激发性,而且试验实施较为简单,常选为试验应力[7]。与之相对应,HALT一般包括低温步进、高温步进、快速温度变化循环、振动步进、温度循环和振动综合5个具体的试验项目,同时进行电源通断切换。
1.3.2 选取试验参数
可以分为逐步增大应力量级的步进试验和应力量级固定的多次循环试验,下面分别讨论其参数的选取。
a)步进试验参数
HALT步进试验的相关参数如图1所示。
图1 步进试验的参数示意图
1)应力初始值Sstart。例如:对于低温和高温步进试验,可选择Sstart=常温。
2)最高应力界限Slimit。其含义是:步进试验中应力的最高限值,达到此限值时,试验即结束。
L试验设施为试验设施(包括试验箱、试验夹具和部署于试验箱内的测试线缆等)的能力极限。L基本为EUT基本极限(Fundamental limit),即针对某种应力,由于产品或产品的组成部分相关技术确定的固有极限(如塑料的融化温度、半导体的最高结温和材料的屈服极限等)。无论对产品造成破坏与否,该极限是无法逾越的,与外在缺陷无关。
该值的估计是难点。若取值过大,不仅费时费力,而且可能会激发大量的非相关故障甚至损坏EUT;若取值过小,则又可能造成故障模式激发不全面,裕度不能得到充分的探测。
以高温为例,可按照产品组成表和工艺文件,查阅相应的元器件手册或规范得到各个元器件的允许最高温度、各种工艺及材料的允许最高温度,取这些值中的最小值,作为EUT基本极限的保守估计。元器件、工艺和材料在允许的应力范围内是保证功能正常并且满足规定的性能指标,超出其范围之外的一定幅度之内可能仍能工作。但是,笔者认为,如果所取的基本极限超过这些许可范围,在为数不多的EUT上短时间内得到的试验结果会缺乏代表性,不具有实际意义。
3)步长Δstep。其含义是:从一个应力水平向后一个应力水平变化时应力的增量。
若Δstep取值太大,一方面,可能在一个步进中激发多个故障,造成故障之间的互相影响,给故障分析带来困难,还会降低裕度的测量精度;若取值太小,由于每一个步进都要进行故障检测和状态监视,则将造成工作量增大,周期过长。因此,对于以激发潜在缺陷为目标的试验,步进值可取稍大一些,以节省总的试验时间;对于以确定裕度为目标的试验,尽可能地选择较小的步进值,以提高实测结果的精度。
4)保持时间Δt。其含义是:应力达到既定的应力量值后持续的时间。
欲将EUT中的潜在缺陷或者薄弱环节激发为可检测的、明显的缺陷或故障,除了应力量值足够大之外,作用时间还必须足够长。该参数由两个部分组成:
t传递是指试验箱中的应力作用于EUT的电子元器件等达到一种稳定状态所需的时间,不同的结构形式和材料可能会导致该传递时间的差异较大。t作用是指希望应力作用于EUT的各个元器件、零部件中发挥激发作用的时间。前者取值来源于特性调查试验,后者基于经验进行估计。
b)温度变化试验参数
快速温度变化试验也被称为温度循环试验,其试验参数的选取需要利用低温步进试验、高温步进试验得到的工作极限值,如图2所示。其参数主要包括以下几个。
图2 温度变化试验的参数示意图
1)循环温度上限和下限:利用高温步进和低温步进试验测得的高低温工作极限,留出一定的余量(如5℃或5%)后作为温度循环的上限和下限。
2)温度变化速率:即升温/降温速率,对应图中温度变化曲线的斜率。
3)保持时间:同前。
4)循环次数:需分析EUT的结构形式、体积大小和复杂程度等因素并加以确定。一般来说,产品越简单,其结构形式越利于热的传导,需要的循环数就越少。
1.4.1 构建检测和监视系统
选择试验期间进行功能性能检测、状态监测的项目或内容,明确判决准则,构建并验证检测和监视系统。应分析检测和监视系统对EUT各个组成部分及可能的故障模式的覆盖能力。
由于在步进试验的每一个应力量值,以及在温度变化试验的每一次循环的高温和低温停留期间,都要至少进行一次测试和监视,工作量大,而且要求在“保持时间”内完成,因此,最好能够实现检测自动化。另外,由于HALT对EUT施加的应力比较严酷,连接EUT与试验箱外部的仪器仪表等部件的线缆应进行必要的加固处理,减少由此引入的非责任故障。
1.4.2 确认试验箱的能力和状态
有研究表明[7-9],传统的环境试验箱、振动台或者综合试验箱也能进行HALT,只是与专门进行HALT的六自由度非高斯宽带随机振动试验箱相比,能够激发的故障模式数量大约损失20%。本文采用专门的HALT试验箱进行试验。
1.4.3 EUT预处理
为了充分地激发产品的薄弱环节,应分析EUT对于试验应力是否存在过于敏感的部位,若存在则进行预处理,预处理方法主要包括以下几种。
a)去除防护措施。例如:去掉减震架、过温、过压保护和遮盖物,为保证空气流通做开口处理等。
b)采取应力隔离措施。例如:某产品采用镶嵌于前面板的液晶屏作为人机交互手段,考虑到液晶屏的低温耐受力差,可以采用隔热保护、暂时拆除改用其他显示方式、通过延长线将液晶屏挪到试验箱外等措施。
1.4.4 进行温度特性调查试验
a)目的
1)在试验箱中合理地布置EUT和试验箱导风管等,使得EUT的各个部位受到的应力都是均衡、受控的。
2)了解EUT重要部位实际承受的应力与试验箱施加的应力之间的差值,可对修正基本极限估计提供参考,也可为故障分析提供支撑。
3)获取应力传递达到稳定所需的时间,为HALT的“保持时间”参数的估计提供支撑。
b)特性调查内容
1)均衡性试验。在产品不加电的情况下,在产品的不同部位(或内外)部署传感器来测量温度值。当实测值偏差超过预定的范围时调整产品或导风管在试验箱中的布置,直到偏差落在允许范围内为止。
2)传递特性试验。产品加电工作时,不同部位的功耗及散热条件等存在差异。在产品的不同部位(或内外)部署传感器来测量温度值,观察这些值趋于稳定所需的时间及其与施加的应力量值的差值。
1.4.5 振动试验的夹具
结合EUT、试验箱的特点,为振动试验提供夹具,包括需求分析、夹具设计、仿真优化、加工制造和验证评估等工作。
HALT采用TAAF迭代循环的思想,如图3所示。
图3 TAAF循环在HALT中的应用
a)试验
准备就绪后按照试验设计对各个EUT按试验项目顺序进行试验。
b)分析
试验中发现需进行故障分析的故障时,采用故障树分析(FTA)等方法进行分析,找出故障根因或来源。
c)改进
根据分析结果,改进设计或工艺提高产品裕度,或修理样品,或报废样品用备件替换等措施。
以激发缺陷为目标的HALT步进试验的TAAF循环流程图如图4所示。
图4 以激发缺陷为目标的步进试验TAAF流程
某数据终端具有某波段数据接收与发送处理功能,经射频前端设备与其他远程数据终端通信。设备由主控单元、供电单元、若干接口和信号处理单元组成。各个单元用金属罩单独屏蔽,单元间通过电缆组件互连,整机采用堆叠结构,底部有减震架,可固定在搭载平台的安装平面。共3台设备参加了HALT,编号为1#~3#。
2.2.1 构建监视和检测系统
监视和检测系统由射频前端、远程数据终端、频谱仪、可变衰减器、摄像头、直流电源和状态监控终端等构成。
2.2.2 检查HALT试验箱参数及状态
试验箱的参数如下所示。
1)温度范围:-100~200℃;
2)温度变化速率:70℃/min;
3)三轴振动频率:5~10 000 Hz;
4)振动量级:≤100 grms。
按温度预留5℃、振动量级预留5 grms来确定试验设施的极限。经实测验证,状态良好。
2.2.3 EUT预处理
1)去掉减震架。
2)考虑到设备堆叠式结构的特点,若去除各个单元的屏蔽罩,将给EUT安装紧固带来不便,因此予以保留。
2.2.4 温度均衡性调查
分析各个单元的作用、功耗和安装位置,选取供电单元、主控单元为重点关注部位,分别在屏蔽罩内部署温度传感器。温箱温度为40℃,测试结果如下所示。
1)1#:30 min,部位间的温差为0.9℃;
2)2#:30 min,部位间的温差为1.1℃。
2.2.5 温度传递特性调查
仍选供电单元和主控单元作为重点部位,分别采集温度。在高温典型值55℃、低温典型值-25℃下,测试结果(取偏差最大者)如下所示。
1)高温:稳定时间为20 min,温差为3.4℃;
2)低温:稳定时间为25 min,温差为8.5℃。
2.2.6 振动试验夹具
制作夹具并进行了仿真和实测,响应曲线平坦无明显的放大,满足要求。
EUT及其在试验箱中的布置如图5所示。
图5 受试设备及其布置
2.2.7 低温步进试验
a)参数选取
以25℃作为起始试验温度。前7个步进以10℃为步进值,后续步进以5℃为步进值降温。温变速率为5℃/min。持续时间为EUT低温温度达到稳定后至少再持续10 min。持续地对EUT进行监视和测试。
b)试验结果
1)故障
1#设备在-90℃时 “上行失锁”,应力减弱到-55℃后故障不能消失。
经分析,发现在低温下射频线缆组件(属于EUT)的接线端子与同轴线缆主体之间接触不良。改进工艺包括增加灌胶处理并加厚防护套。对3台设备进行了相同的处理。
2)裕度
改进后,3台设备的低温工作极限为-55、-55、-60℃;破坏极限<-95℃,即达到试验能力极限后,均未出现不可恢复故障。
2.2.8 高温步进试验
a)参数选取
起始温度为25℃,第一个步进取20℃,第二个步进取10℃,然后以5℃步进地升温,温变速率为5℃/min。持续时间为EUT高温温度达到稳定后至少再持续10 min。保持对EUT进行监视和测试。
b)试验结果
1)故障
在测试破坏极限时,3台设备的故障现象均为“设备死机”。
观察发现射频线缆组件中的线缆僵硬,测试发现其电性能异常。认为目前裕度值满足要求,而且线缆组件已无修理价值,因此停止TAAF循环,更换了线缆组件。
2)裕度
工作极限均为85℃,破坏极限依次为130、135、140℃。
2.2.9 快速温度循环试验
a)参数选取
在来自多件样品的工作极限实测值中,选绝对值最小者作为工作极限,再取5℃为余量,得到高温为80℃、低温为-50℃。温变速率取60℃/min,高、低温持续时间各35 min,循环5次后对EUT进行检测。
b)试验结果
3台EUT均未发现异常。
2.2.10 振动步进试验
a)参数选取
起始量级为5 grms,步进值为5 grms,持续时间为10 min。持续地进行监视和测试。
b)试验结果
1)故障
1#设备在95 grms振动应力下,出现“下行失锁”现象,减弱应力直至停止振动后故障不能消失。检查发现某接口单元射频输出接口的焊盘脱落,无法修复且无可用备件,1#设备退出HALT。
2#设备在80 grms振动应力下,出现“不能正常显示图像”的现象,应力减弱直至停止振动后故障不能消失。经检查认为是由于EUT与监测系统之间的互连线缆松动所致,全面紧固并复验。
2)裕度
工作极限依次为75、55、65 grms,破坏极限:1#为95 grms,2#为80 grms,3#>95 grms(达到试验箱能力极限时仍未出现不可恢复故障)。
2.2.11 快速温变循环与振动步进综合试验
a)参数选取
根据对产品的分析,取周期数=5。快速温变循环参数不变。振动应力最大值取75 grms,起始量级取15 grms,计算得到振动应力的步进值为15 grms,以温度循环周期作为振动步进的持续时间,循环结束后进行测试。
b)试验结果
2#设备出现“下行失锁”现象,不能自行恢复。经分析发现,供电单元内部的一款电源变换元器件失效且无现货,修理周期长,2#设备退出HALT。
3#设备出现与2#相同的故障现象。经检查发现有两种不同的接口单元均出现了晶振模块(同型号)从电路板中脱落。根据以往类似产品的实际使用质量信息,认为这属于非预期故障模式,修理后进行了验证。虽然是非预期故障,但也引起了设计人员的注意,分析发现与其他元器件相比,该晶振模块自身的重量较大,而且管脚高,今后将在新产品设计中从选型和装配工艺两个方面加以注意。
通过案例分析,总结了以下几个注意事项。
a)HALT确实能够在短时间内将产品的潜在缺陷和薄弱环节激发为可检测的故障,能够获得产品对各种应力的裕度,对提高产品的可靠性有实际作用。
b)整个HALT的进度存在不可控现象,每当发生需要分析的故障时,都要做到定位准确、机理清晰、故障复现、措施有效和举一反三,技术难度大,耗时长且不可预计。
c)温度循环试验对于3台设备都没有激发出故障,这可能意味着循环次数偏少,可以考虑适当地增大。
d)振动步进试验中出现焊盘脱落现象,有两种可能:1)有关结构设计或实际加工装配等可能存在缺陷,导致问题发生,属于产品设计或者加工质量问题,应改进产品;2)基本极限估值过高,导致应力超出允许范围,应改进试验。由于本案例样本数量少,难以进一步地定位。
e)综合试验中出现非预期故障,分析其原因:1)振动量级的最大值取值为75 grms,对于2#和3#设备而言取值偏大,今后考虑从工作极限实测值中取最小值;2)综合试验中,振动步进的持续时间等于一个温度循环周期,包括高、低温持续时间各35 min、升降温时间合计约5 min,总计约80 min,是常温下振动步进试验持续时间(10 min)的8倍,超长时间的振动对EUT的作用过于严酷。
针对上述问题,有以下两种改进方法。
1)改进振动步进试验的持续时间参数选取方法,由目前独立估计,改为与温度循环周期保持一致,为综合试验奠定基础。
2)将综合试验看作在温度循环应力下的振动步进试验。许多产品在温度变化时的振动响应会发生变化,应为这种综合环境激励确定工作和破坏极限[7]。这虽然与目前HALT标准(如文献[5]和[10]等)的提法不一致,但值得尝试。
f)温度循环和综合试验采用的是循环结束后对EUT进行检测,不利于判定故障的具体发生时间或应力水平,可以改为持续检测和监视。
HALT属于“过试验”而且具有探索性,其结果具有不确定性,并非按照某种固化的、通用的规程执行即可奏效,必须针对具体产品进行分析,将在实践中长期积累形成的面向特定行业、产品领域或具体企业的经验和历史数据,应用于应力选择、试验参数选取、试验准备、试验执行、故障分析和设计改进迭代循环全过程。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!