当前位置:首页 期刊杂志

双模冗余器载计算机设计与实现

时间:2024-05-04

陈玉坤,张声艳,刘 冬,冯忠伟,刘 洋

(中国运载火箭技术研究院 研究发展中心,北京 100076)

双模冗余器载计算机设计与实现

陈玉坤,张声艳,刘 冬,冯忠伟,刘 洋

(中国运载火箭技术研究院 研究发展中心,北京 100076)

器载计算机是航天器电气系统的重要组成部分,其可靠性对航天器能否完成任务至关重要;为了保证航天器上计算机在出现故障时仍能正常工作,对双机冗余器载计算机的体系结构、切换策略、判别准则等内容进行了研究,在保留主份机与双机切换电路、备份机与双机切换电路之间的状态工作信号的基础上,通过在主份机、备份机之间新增加一个状态工作信号,提出了一种改进的自主切换策略;实践表明,运用改进的自主切换策略,在双机切换电路中的自主切换模块出现故障时仍能实现自主切换,同时将比较器设计为软件,采用软件表决、软件选通的思路,消除了硬件比较器的关键单点故障,这些容错设计改进能有效地提高器载计算机系统的可靠性,对高可靠器载计算机设计与实现具有较好的工程参考意义。

双模;冗余;航天器;计算机

0 引言

随着我国综合国力的不断提高和航天技术的不断发展,航天任务的复杂度越来越高,对航天器的可靠性、安全性提出了越来越高的要求[1-2]。器载计算机在空间环境中,始终受到空间复杂环境的影响,如等离子体、高能带电粒子、地球磁场、太阳电磁辐射、地球大气辐射、流星体等空间环境因素,都会使器载计算机的可靠性变差,发生故障。在空间轨道中,除空间站外,器载计算机一般不具备可维修性,一旦出现故障,极易造成航天器的在轨失效。因此,关于器载计算机的容错技术便成了亟待深入研究的课题。

1 器载计算机容错方案分析

器载计算机是航天器上电气系统的重要组成部分,其可靠性对航天器至关重要,器载计算机能否正常工作很大程度上决定了航天任务的成败。要保证器载计算机工作的可靠性,必须采取容错设计。硬件冗余是容错设计的基础。对于较小体积的航天器而言,由于重量、体积、功耗的限制,容错方案不能过于复杂,因此可以考虑动态冗余中的双模冗余和静态冗余中的三模冗余。对两种模型进行比较,静态三模(TMR)结构的优点是系统易于建立与实现[3],动态双模冗余具有除了硬件投入少,性能价格比高之外,在可靠性方面,动态双模系统的可靠度高于静态三模系统的可靠度。

基于可靠度、冗余度以及故障检测性能等方面考虑,动态双模系统具有较大优势。本文重点对器载计算机系统采用动态双模冗余的容错结构及切换策略进行了研究,并对其中的关键技术进行了分析,对开展相关的工程设计与实现具有一定的借鉴作用。

2 双模冗余硬件体系结构及切换策略

备份容错结构是容错系统结构常用的手段,同构双模冗余系统有4种工作方式,即冷备、温备、热备和双工[4]。冗余必然牵涉到额外资源的增加,在航天器执行任务过程中,结合性能、功耗、可靠性因素,器载计算机根据飞行时序常采用多种双机冗余容错相结合的方案。

2.1 双机冷备份容错系统结构

当航天器处于地面可控和稳态控制时,为确保工作寿命及减少功耗,采用一热一冷的冗余计算机系统方案比较合适,双机冷备份容错系统典型结构如图1所示,采用具有相同功能的两套处理器板和I/O板形成双机冷备份容错结构。双机的切换由一块容错板进行管理,当主份机发生故障由容错板切换到备份机,而当备份机也发生故障时,主份机仍未恢复时,则切换到一块只具备最基本功能的应急板上。

图1 双机冷备份容错系统典型结构

在这样的系统中,有3个主要因素需要考虑:1)故障的检测;2)备份机切换和加电;3)状态的恢复。故障的检测是实现这种容错系统起作用的必要基础,在这样的系统中,故障检测的主要方式有:系统自测试、程序的重复运行、数据区的三取二方式,以及看门狗技术。系统的自测试可以发现系统中的大部分故障,缺点是必须保证自测试部分是正常的。

2.2 双机热备份容错系统结构

在初始姿态建立阶段,为确保航天器工作正常和故障及时处理,器载计算机采用由两台热机组成冗余计算机系统进行控制的方案,当主份机出现故障时,由遥控指令或者自主判别切换,将控制权由主份机转移到备份机控制。

双机热备冗余的设计方案思路如下:主份机、备份机各自拥有独立的供电,在同一时刻,主份机或备份机只有一台单机拥有控制权;在热冗余方式下,两台单机(主份机、备份机)同时运行,接收外部信号并进行处理,在对外的输出接口处,通过双机切换电路将拥有控制权单机的处理信号进行输出。当地面指控中心发现某台机器发生严重故障、无法再使用时,可以通过遥控指令或器载自主切换电路将其断电。故障隔离电路对出现故障的单机进行隔离,保证该故障机器断电后不影响另外一台机器工作,双机热备份容错系统结构如图2所示。

图2 双机热备份容错系统典型结构

在图2所示的双机热备份容错系统结构中,双机切换电路是双机控制的硬件,其内部采用定时监控器配合相应的控制逻辑电路实现,采用“看门狗”机制的设计思路。双机切换电路内都有主份机、备份机各自对应的正常触发器,主份机、备份机正常信号将其复位,而双机切换电路的定时信号则置位正常触发器。在定时信号到来之前,某单机没有发出正常信号,即对应的正常触发器未被复位,则定时信号将产生切换信号,计算机输出选通处于正常状态的单机。如果两机都正常,没有切换信号,则主份机的输出作为整个器载计算机的输出,且输出选通状态不变。如果在某段时间内两机都处于不正常状态(即两机都不能输出正常信号),则总是由主份机输出,这样保证了在最坏情况下有一个当班机,而避免了两机频繁切换的情况。

2.3 双机切换实现方式

在航天器驻留轨道期间,可以通过遥控方式、自主切换方式来实现器载计算机的双机切换。当地面指控中心根据航天器的遥测数据能够判断出航天器当前工作计算机发生故障时,地面指控中心发送遥控切权指令,实现器载计算机的冗余切换;当采用遥控切换命令时,自主切换功能被封锁,两机的输出切换根据遥控命令确定。为了封锁自主切换功能,通过遥控指令设置了遥控准/禁自主切换的时间窗口,当航天器处于准自主切换状态,才允许进行器载计算机的自主切换,否则不允许自主切换。在自主状态下当主份机故障将执行备份机夺权指令,其自主赋权部分由积分电路完成,保证备份机在夺权时不能在一次或一条指令下完成,必须连续多次发出夺权指令,使积分电路的输出积累到一定的电平才能驱动继电器实现夺权,从而备份计算机成为当班机执行控制权。

2.4 改进双机切换实现方式

在容错计算机设计时,为了防止双机切换电路中的自主切换模块出现硬件故障而无法实现正常工作机和故障机之间的逻辑判断,在双机热备份容错系统典型结构的基础上进行了改进,即主份机与双机切换电路、备份机与双机切换电路之间除了有状态工作信号,在主份机、备份机之间新增加一个状态工作信号,这样在双机切换电路中的自主切换模块出现故障时仍能实现自主切换,增加了系统冗余。其工作原理为:主份机正常时,主份机同时会定时向备份机发正常工作信号;当主份机故障时,备份机检测不到正常信号。备份机通过双机通讯口可以获知主份机是否发生故障,若发现主份机发生故障后,且备份机自检正常,备份机就会多次发出夺权脉冲备份机获得控制权,进行系统结构重组。以上的自主切换可以在双机切换电路中的自主切换模块出现故障而不参与的情况下实现,可以容忍自主切换模块的一度故障。其信息流如图3所示。

图3 改进的双机热备份容错系统结构

在设计信息交换接口时,主份机、备份机分别设计有缓存区供对方计算机通讯时使用。主份机将自己的数据写入备份机的缓冲区,同样,备份机将自己的数据写入主份机缓冲区。主份机、备份机的设计电路完全相同。双机通讯原理框图如图4所示。

图4 双机通讯原理框图

主份机、备份机通讯流程如图5所示,若M代表主份机,则N代表备份机;若M代表备份机,则N代表主份机。

图5 双机通讯设计流程图

3 双模双工结构中的比较器设计

在双模双工系统中,双机双工需要将主份机、备份机的结果比较后再进行选择输出,因而比较器是双模双工系统容错设计的关键部件。常见的双模双工系统容错系统中,比较器多由硬件实现,硬件比较模块主要由比较电路、监测电路执行机构组成,根据不同冗余级别采用不同方案,比较器的可靠性成为系统新的“瓶颈”。

在设计中为了尽量避免硬件比较器的不利因素,将对实时性、嵌入性器载计算机系统可靠性的危害降到最小程度[5]。为此,提出一种解决比较器可靠性问题的方案:软件表决、软件选通的思路,即不设计单独的比较器硬件单元,将比较器设计为软件,以系统现有资源为载体建立比较系统,避免了比较器需要单独监测的可靠性问题,从而使系统得到优化[6]。比较器的软件判断流程如图6所示。

图6 比较器的软件判断流程图

4 航天器高可靠容错计算机系统关键技术

4.1 余度管理技术

余度管理技术是对余度系统运行机制的筹划和对出现的问题的处理,是在已确定了的系统硬件/软件资源的余度配置等级的基础上提高系统可靠性的一项关键技术。余度管理技术包括通道之间的同步技术、数据交换技术、信号的监控和表决以及故障检测与隔离技术等。同步技术是余度管理技术的关键,只有在同步情况下,对信号的监控和比较才有一定的意义,同步技术涉及软硬件的共同协调性;数据交换技术是信号监控和表决的前提条件;通过信号的监控和表决后就可以进行故障检测并对故障进行隔离[7]。

4.2 可重构容错算法

可重构容错算法是器载计算机软件模块的关键技术。当航天器遭受非致命性损伤或发生故障时,可重构容错算法能够针对电气系统故障的不同部位、故障的类型和影响程度给出相应的容错处理方案,并进行快速的系统重构控制。目前可重构容错算法主要有:主动容错算法、自适应容错算法和智能容错算法等,在工程实现上还需要考虑算法本身的可靠性、复杂性和计算效率等。

4.3 高可信软件的构造与验证技术

在航天器计算机中,软件的作用越来越重要,保证软件的可信度和健壮性一直是容错技术研究的重要方面之一。因此研究提高现有软件容错技术应用的可靠性,构建软件的可信保障技术体系,同时利用形式化方法对空间软件进行验证,对可信性软件验证的集成环境进行开发。在航天器出现故障时,及时通过高可信软件的补偿、切换、隔离等措施,使航天器各部分功能的状态及执行结果更加可靠、可信。目前高可信软件容错技术主要有:回卷技术、软件陷阱、分布式恢复块、数据重表达技术等。

5 结束语

器载计算机的可靠性与安全性是航天器能否安全的重要保证,本文详细阐述了具备容错功能的器载计算机系统的体系结构,分析了双机切换策略及判别准则,提出了一种改进的自主切换策略和软件比较器设计思路。实践表明,这些容错设计改进能有效地提高器载计算机系统的可靠性,对高可靠器载计算机设计与实现具有较好的工程参考意义。

[1] 杨孟飞, 华更新, 冯彦君,等. 航天器控制计算机容错技术[M]. 北京:国防工业出版社, 2014.

[2] 徐 奡, 夏德天, 郑久寿,等. 高升力系统控制计算机容错技术研究[J]. 微电子学与计算机, 2015(6): 36-40.

[3] 马秀娟, 张秀珍, 曹喜滨,等. 容错星载计算机系统结构设计[J]. 微处理机, 2003 (2): 47-49.

[4] 肖爱斌 , 胡明明 , 任宪朝.四模冗余拜占庭容错计算机可靠性分析[J]. 空间控制技术与应用, 2014 ,40(3): 42-46.

[5] 李淑侠, 魏广平. 高可靠并行星载计算机软件容错技术研究[J]. 物联网技术, 2014 (5): 63-64.

[6] 孙秀娟. 基于双模冗余容错技术的数据采集系统设计[J]. 电测与仪表, 2008 (8):49-52.

[7] 高丽娜, 杨宝奎. 容错飞控计算机体系结构研究[J]. 战术导弹技术, 2013 (5):107-110.

Design and Implementation of Dual Redundant Space On-board Computer System

Chen Yukun,Zhang Shengyan,Liu Dong,Feng Zhongwei,Liu Yang

(Research and Development Center, China Academy of Launch Vehicle Technology, Beijing 100076,China)

On-board computer system has a significant role in spacecraft electronic system,and its reliability is especially essential to achieve final mission. In order to still work normally when on-board computer has failure, system architecture, switch method and estimation rule of dual redundant space on-board computer system are introduced. On the basis of preserving the state signal between main computer and switch circuit, the state signal between backup computer and switch circuit, and the state signal between main computer and backup computer is adopted, then presents a modified independence switch method. By using modified independence switch method, independence switch function still work normally when independence switch module has failure. Comparator is implemented by adopting software vote and software switch approach, and it can eliminate hardware comparator’s key failure. Practice indicates that the redundant technology can effectively improve the reliability of space on-board computer system, and the paper has engineering application value for design and implementation of space on-board computer system with high reliability.

dual; redundance; spacecraft; computer

2016-06-03;

2016-07-14。

陈玉坤(1979-),男,河南卫辉市人,博士,高级工程师,主要从事数据管理系统和测控通信系统方向的研究。

1671-4598(2016)12-0130-03

10.16526/j.cnki.11-4762/tp.2016.12.037

TP301

A

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!