1.本发明涉及预防性维护技术领域,具体是一种基于深度强化学习的多部件系统维修策略优化方法。
背景技术:
2.由于现代工业化的飞速发展以及社会水平的不断提高,单部件系统已经逐渐不能满足复杂场景的功能需求,各行各业系统都逐渐向复杂化、自动化和集成化靠拢,对多部件复杂系统的需求量增大。相比于单部件系统,多部件系统中的部件数量和部件种类都逐渐增多,且内部结构以及依赖关系越来越复杂。传统的单部件维修策略研究对象单一,且维修方式选择有限,故不适用于多部件系统维修策略的制定。但是,多部件系统是由多个单部件系统所构成的,所以需要在单部件维修建模的基础上进行扩展和优化。由于多部件系统的工作环境往往是复杂多变的,简单的维修方式难以描述不同场景下的维修需要,且随着内部单部件系统数量的增多,内部结构之间的依赖性增强,难以建立准确的多部件数学模型,且维修对象的增多会使得维修策略中状态空间数呈指数增长,带来“维度爆炸”等求解难题。因此,在多部件系统内部,考虑单部件多种失效模式极其结构性,以及多部件之间的机会维护,采用深度学习和强化学习结合的方法,给定不同状态下多部件系统的最佳维修方式,尽可能提高系统的安全性和可靠性,
技术实现要素:
3.本发明为了降低航空发动机气路系统的维修成本,减少“欠维护”导致的停机成本和“过维护”导致的资源浪费,提高多部件系统的整体维修效益;本发明提供了一种基于深度强化学习的多部件系统维修策略优化方法。
4.本发明技术方案为一种针对航空发动机气路系统的维修策略优化方法,该方法包括:
5.步骤1:建立航空发动机气路系统的退化数学模型;
6.采用gamma随机过程x(t)来表示航空发动机内部单部件的退化过程,定义如下:
7.(1)x(t)是具有独立增量的随机过程;
8.(2)x(t)从t=0开始,且x(0)=0;
9.(3)各部件随机变量相互独立;
10.(4)每个部件xi的退化过程都服从gamma分布,且其形状参数在时间上是线性变化的,即部件xi(t)~gamma(αi(t),βi),其中αi(t)表示部件i的形状参数,βi表示部件i的尺度参数;故航空发动机作为一个总系统,其整体退化状态由各个部件的退化组合来表示,简化为x(t)={x1(t),x2(t),x3(t),...xn(t)},其中,n表示该航空发动机系统是由n个单部件构成的;
11.步骤2:基于齐次泊松过程,建立航空发动机气路系统中各部件的外部随机冲击数学模型;
12.将随机冲击到来的概率描述为速率为λ的齐次泊松过程,表示式如下:
[0013][0014]
上式用于计算在时间t内,部件遭受到n次随机冲击的概率,n(t)表示时间t内遭受的随机冲击次数;
[0015]
随机冲击损失量y~n(μ,δ2);面对意外的随机冲击,设定部件存在一个最大承受范围,一旦某一次的随机冲击过大超过了该范围,则定义该部件被发生了硬失效,该最大承受上限值d称之为硬失效阈值;
[0016]
将冲击损伤量视为部件退化路径上的退化附加增量;对于任何一个部件i,其总的累积退化量是在时间t时自身纯退化量和截至时间t时外部冲击导致的额外损伤量的总和xi(t),其表达式如下:
[0017]
xi(t)=xi(t) ωi(t)
[0018][0019]
其中,xi(t)表示的是部件i在时间t时刻的内部纯退化量;y
ij
表示的是部件i在第j次受到外部冲击导致的退化量;ωi(t)表示的是在t时刻,部件i遭受了n(t)次随即冲击后的总的额外损伤量;当部件的总退化量x(t)超过了初始预定的最大承受范围时,则部件发生了软失效,该阈值h被定义为系统的软失效阈值,其初始设定时需要综合考虑内退化和外冲击的双重影响;
[0020]
当部件发生失效时,无论其发生硬失效还是软失效,都需要对其进行替换操作,将故障部件更换为全新部件;
[0021]
步骤3:建立航空发动机气路系统的学习算法模型;
[0022]
采用强化学习q-learning模型作为航空发动机气路系统的学习算法模型;所述的强化学习q-learning模型中采用深度神经网络计算q表,将参数为θ的深度神经网络来取代值函数的输出q值,计算出不同动作下的近似q值,表示为:
[0023]
f(s,a,θ)=q
*
(s,a)
[0024]
其中,s表示状态信息作为神经网络的输入值,s既可以表示为单一状态也可以表示为多维状态空间,a表示维修动作,f(s,a,θ)为泛化函数,q
*
(s,a)表示q表;所述深度神经网络的损失函数为:
[0025]
loss(θ)=e[(predicted
q_value-target
q_value
)2]
[0026]
其中,e[
·
]表示期望,predicted
q_value
=q(s
t
,a
t
,θ)表示当前神经网络的预测输出值;
[0027]
target
q_value
=r lmaxq(s
t 1
,a
t 1
,θ-)表示基于q表更新方式得到的目标q值,其中,θ-是参数θ延迟更新后得到的,r表示预设值,l表示权重因子;
[0028]
采用马尔可夫决策过程描述航空发动机气路系统的退化过程,简化为多维元组(s,a,r,γ),其中,s用来表征航空发动机气路系统的退化状态,s=(s1,s2,s3,...,sn),其中si表示的是第i个部件的退化水平;a用来表示所有部件可选的维修动作集合,r用来表示奖励值函数,由于维修决策建立的优化目标是最小化单位维修成本,故奖励值函数r由系统维修成本c的负值表示,即r=-c;γ表示为折扣因子;
[0029]
定义周期性维护周期t为终止状态,即只需要制定出在该时间范围内的维护方案;在上述时间范围t内,需要以固定的时间间隔对系统整体进行安全性检查,假设一次检查所持续的有效时间为τ,则总共需要k=t/τ次离散化的检查;深度神经网络输入值退化状态s,其输出是基于当前系统退化水平的不同维修动作所对应的奖励值;
[0030]
步骤4:求解航空发动机气路系统的最佳维修策略;
[0031]
初始化航空发动机气路系统的退化状态和随机冲击,确定一次检查所持续的有效时间为τ,根据步骤1和步骤2的模型计算每次维护时航空发动机气路系统的退化状态,然后输入步骤3的模型,得到每次的维护时不同维修动作所对应的奖励值,找出最优的维修动作。
[0032]
进一步的,所述步骤3中,在更换失效部件时,利用此停机时间段来检查其他部件,当其他部件的退化程度超出设定范围时,具有较大的可能在不久未来的运行阶段发生失效,故借此机会对其进行预防性替换;将该预防性更换动作加入可选的维修动作集合a中。
[0033]
本发明的有益效果是:
[0034]
该优化方法针对多部件系统制定维修策略,建立一个多部件退化数学模型,其中单部件系统除了自身退化过程外,还会遭受到不可预估的意外冲击,意外冲击会加速部件自身的退化程度。在考虑单部件失效情况时,给出了软失效阈值、硬失效阈值以及机会性维护阈值,大大确保了运行的安全性,同时借助于失效部件的维修机会来判断是否对其它高退化程度的部件进行机会性维护。针对高维状态空间求解问题,将深度学习和q学习算法思想进行综合,让神经网络的自主学习性来替代二维q表的存储功能,最终可实现输入一组多维退化状态空间,得到对应的一组最佳维修动作的输出组合。
附图说明
[0035]
图1为传统q学习和深度q学习对比图;
[0036]
图2为本发明深度q学习整体架构图。
具体实施方式
[0037]
本方法以航空发动机气路系统中的高涡部件a和低涡部件b两个单部件系统为例,以t=100作为两个部件的生命周期,考虑每个部件同时受到自身退化和冲击的影响,假设以τ=1来对部件进行检查,基于多个部件的退化状态给出最佳的维修动作。高涡部件a和低涡部件b是串联的,设定其退化过程都是服从gamma分布,即x~ga(0.6,5),其常常用于描述系统的退化,因为具有单调递增性质。假设系统中每个部件都存在一个硬失效阈值d和软失效阈值h以及机会性更换阈值o,硬失效阈值的确定由随机冲击的程度来决定,软失效阈值同时受到部件自身退化和外部冲击的影响。无论部件发生了硬失效还是软失效,都被定义为故障状态,应对其进行更换操作,并在借此更换期间检查其他部件的退化程度。若其他部件的退化程度较高,超过其机会性更换阈值时,同样对其进行替换操作。各部件的阈值参数以及分布函数参数设置如下表所示。
[0038]
表1部件分布参数及阈值参数表
[0039][0040]
在检查间隔期间,除了替换维修方式外,还可以根据系统的退化状态选择不进行维修(a=0)、不完美小修(a=1)、小修(a=2)、不完美替换(a=3)等四种维修方式,各部件所有维修成本以及维修效果参数设置如下:
[0041]
表2维修动作参数表
[0042][0043]
维修效果是衡量部件在维修后所能恢复到相对当前退化水平的程度,以维修效果参数v=0.5的小修为例。若部件当前所处的退化状态为x
t
,当前阶段自身的退化量为i
t
,遭受到的外部冲击加剧的退化量为ω
t
,则部件进行小修后的退化水平可表示为:
[0044]
x
t 1
=0.5*x
t
i
t
ω
t
[0045]
除了上述不同维修方式的维修成本外,还需要考虑部件维修时的停机成本和意外故障时的巨大损失成本。在检查期间,若部件退化过程度过高超过其软失效阈值或者其达到了硬失效所能承受的最大范围,则被判定为失效状态,需要对其进行替换。在对部件替换期间,会因为系统停机而带来额外的停机维修成本c
downtime
=1000。若因为没有进行合理的维修而导致系统在运行期间出现意外故障,则会带来巨大的人力和物力损失,昂贵的损失费用可以理解为具有一定惩罚性,故称之为惩罚成本,设置为c
penalty
=10000。
[0046]
由于每个部件均有五种维修方式可供选择,故共有25中维修方式组合,维修方式组合如下表所示。
[0047]
表3维修动作组合表
[0048][0049]
在本章中,设置深度q学习算法中的折扣因子γ=0.99,ε=0.1,学习率θ=0.001,同时,设置总的迭代次数设置为100000,神经网络中的目标更新频率为1000,缓冲区常规的观察数据的大小为10000,数据要保证其至少有500个,隐藏层由128个单元构成,训练的集样本大小设置为64,验证输入大小为32。基于维修数据训练后的神经网络可以实现给定一组由系统中各个部件退化状态的组合,得到每个部件对应的最佳维修动作。
[0050]
基于本章建立的数学模型以及深度q学习算法,可以不需要借助额外的存储空间,输入航空发动机中部件不同退化状态组合,得出每种组合所对应的最佳维修组合,其结果如下表所示。
[0051]
表4维修优化结果表
[0052][0053]
上表模拟了两个部件不同退化状态的组合,将其作为神经网络的输入值,输出为各部件对应的最佳维修操作。在退化组合(0,4)和(0,16)中,由于部件a都处于全新状态所以不需要对其进行维修,而部件b处于不同程度的退化水平,当处于轻度退化状态时对其进行不完美维修即可,在处于中度退化状态时建议是对其进行程度更大的不完美替换操作。在处于组合3的退化状态时,对处于轻度退化状态的部件a进行不完美维修,对处于高度退化状态但是未达到失效阈值的部件b进行不完美替换,这是符合维修逻辑的。在组合4中,部件b已经处于高度退化状态,为了后续运行的安全性建议对其进行替换操作,而组件a均处于退化初期,因此对其进行不完美维修即可。在组合5中,基于部件ab的退化程度不同分别对其采用的是维修和不完美维修操作,而在组合6中,虽然部件a的退化程度高于组合5,但是输出的最佳维修方式却是不完美维修,可能原因是组合5中的部件a还受到了随机冲击带来的额外退化量。在组合7中,部件b的退化量已经超出其软失效阈值需要对其进行替换操
作,在此期间检测到部件a的退化程度也达到了其机会性维护阈值,故对ab两部件都采取替换维修。在组合8中,需要对部件a和部件b进行替换操作,其均未达到其软失效阈值但是都超过了其机会性维护阈值。原因一可能是由于外部冲击带来的额外损失量导致其同时失效,原因二可能是某一部件遭受了外部冲击为另一部件提供的机会性替换操作。在退化组合(29,14)中,对高度退化的部件a进行替换操作以保证安全性,对处于中度退化水平的部件b进行维修操作,虽然组合9中部件b的退化程度轻于组合6中部件b,但是其维修程度却高于组合6,可能是由于外部冲击所增加的额外损失量不同。
[0054]
基于上述建立的航空发动机多部件数学模型,将基于深度强化学习的动态维修策略、固定周期的静态维修以及失效后维修策略三种维修策略从单位时间的维修成本上进行对比。
[0055]
静态维修策略:在给定的生命周期t=100下,无论部件当前退化水平如何,始终以每10个检查时间间隔对系统中每个部件进行不完美维修,执行该静态策略直至生命周期结束。
[0056]
失效维修策略:在给定的生命周期t=100下,不以固定的时间间隔来检查系统内部各部件,只有当其中一个部件系统发生失效后,停机对系统内部所有部件进行检查,并对所有失效的部件进行替换操作,直至生命周期结束。
[0057]
三种维修策略下的单位时间维修成本进行对比结果如下表所示。
[0058]
表5不同维修策略成本对比表
[0059][0060]
可以明显看出,与上述静态维修策略和失效维修策略相比,本节所提出的经过动态维修策略具有最低的单位时间维修成本,验证了基于深度强化学习后给出的维修方式具有较好的成本效益。