时间:2024-07-28
阴艳超 施成娟 邹朝普 刘孝保
1.昆明理工大学机电工程学院,昆明,6505002.昆船智能技术股份有限公司,昆明,650051
流程制造具有生产连续性强、工序间参数耦合复杂、原料成分波动频繁等特点。保障流程产品质量稳定的关键是如何在最短时间内感知工艺过程和产品质量的各种变化,并通过调整运行参数和工艺参数来保证生产全流程的整体高效运行,因此,研究精准、快速和高效的生产质量预测方法是提高流程产品质量和资源利用率的核心。
近年来,国内外学者对流程产品质量的预测方法进行了有益的探索。针对车间生产数据的关联挖掘,梁强等[1]利用灰度关联分析和熵值法,将多目标问题转化为关于灰色关联度的单目标问题;胡嘉蕊等[2]应用核主成分分析提取核主成分,实现了多输出模型的降维。支持向量机回归(support vector regression,SVR)模型[3-5]、反向传播人工神经网络(back propagation artificial neural networks,BPANN)[6-7]、深度神经网络(deep neural networks,DNN)[8]都是以数据驱动为基础来探索高维非线性映射关系的经典模型,在诸多场景中得到了广泛应用,但这些方法容易受到专家经验及独立处理时间点的限制,提取的参数特征存在偏失。
随着硬件算力的提高,深度学习在时间序列预测领域中的应用备受关注,国内外的研究主要集中在深度学习模型,如循环神经网络及其变体结构[9-11]通过引入循环反馈结构来处理输入序列间前后关联的问题,即提取出前后时刻不断更替的时序信息,但该方法无法解决长距离信息依赖问题。为解决上述问题,很多学者展开了混合神经网络的研究,通过聚集不同神经网络的优势来弥补单一神经网络的不足。何彦等[12]结合堆叠自动编码器和双向长短期记忆网络的优点,从高维数据中提取低维特征并完成时序预测。ZHANG等[13]将卷积神经网络和长短期记忆神经网络相结合,旨在有效地将特征提取、融合和回归相结合,最终实现预测。QI等[14]通过搭建卷积神经网络来实现数据的自适应特征提取,并将提取出的特征作为支持向量回归模型的输入,避免了人工特征提取和特征选择的局限性。
上述基于深度学习的方法在生产质量预测上取得了诸多成果。实际应用中,生产过程是由不同产线构成的,而不同产线获取的数据量各不相同,存在小样本数据集的可能,且不同产线都需要对模型进行重新训练。这在模型训练过程中会导致以下问题:样本数据集过小时不足以获得完整的工艺特征信息;样本数据集过大时训练时间较长,难以及时进行生产质量的在线预测。
迁移学习具有计算成本低、学习样本小[15-16]等优点,因此本文基于迁移学习的思想,提出一种新的车间工艺质量在线预测模型。首先构建出一种能有效利用工艺参数和历史质量指标时序信息的质量预测模型。利用迁移学习解决其他产线数据不足、难以精准建模,以及模型运行时间长、难以支持在线预测等问题。
流程生产主要通过传感器、智能终端、控制系统获取设备运行参数、工艺参数、质量指标等包含不同维度特征信息的生产数据。制丝工艺生产中的松散回潮工序对应的生产数据包括主蒸汽压力、工作蒸汽压力、工艺用水压力、压缩空气压力、筛板加热蒸汽压力、回风风门开度、排潮风门开度和滚筒转速等工艺参数,以及出料含水率、出料温度两个质量指标。实际应用中,设备运行参数与工艺参数的关联关系和时序依赖关系特征难以获取,致使敏感工艺和运行参数无法及时调控,进而无法保障生产质量的稳定。
传统的工艺质量预测模型无法提取工艺数据的时序特性,因而本文借助序列到序列(sequence to sequence, Seq2Seq)的布局,提出基于时间卷积神经网络的学习框架来预测工艺质量。在Seq2Seq模型中引入卷积结构表示和捕捉工艺数据的关联模式,构建工艺时间序列的依赖关系,以解决Seq2Seq模型的深度特征提取不全和前序特征覆盖的问题。
设流程车间任一工序中的质量指标序列Y=(y1,y2,…,yT)∈RT,工艺参数的运行时序数据可展开表达为
(1)
式中,xt为N个工艺参数在时刻t(t=1,2,…,T)下的数据,xt=(xt,1,xt,2, …,xt,N);xm为第m(m=1,2,…,N)个工艺参数T个历史时刻的时间序列,xm=(x1,m,x2,m,…,xT,m)T。
本文模型是基于序列到序列的学习框架,通过综合运用车间工艺参数特征信息和历史工艺质量时序信息来预测工艺质量,具体操作如下:首先,通过编码器中的时间卷积神经网络(temporal convolution neural network,TCN)和时序注意力机制联合提取工艺参数中的关联时序信息;随后,整合解码器中的残差长短期记忆(long short term memory, LSTM)网络来学习表达历史工艺质量中的时序信息,最终实现复杂工况下产品质量的精准预测。将本文模型简记为DTCN_A模型,且将模型的整体函数记为FDTCN_A,则工艺质量预测值
(2)
实际的流程生产中,不同工序设备运行的变化会导致生成的实时数据集与参与模型训练的样本集有所差别,因此利用离线数据训练得到的工艺质量预测模型难以精准预测各种未知工况下的质量指标,且预测模型在很多情况下无法重新学习。针对上述问题,利用不同设备、操作条件或产线下加工工序的相似性,引入迁移学习,提出一种适用于深度TCN的有效迁移学习方式,即将源域中的有用知识迁移到目标域,利用迁移学习来自适应跟踪设备运行参数和工艺参数的变化,实现不同产线下的模型自适应训练及车间工艺质量的在线预测。
借助Seq2seq学习结构的深度TCN时序注意力网络模型是一种端到端的深度神经网络模型,适合学习和表达时间序列的潜在深度特征,并最终实现预测。如图1所示,本文提出的深度学习架构模型包括3个部分:基于扩张因果卷积网络的编码器、时序注意力机制和基于残差LSTM网络的解码器。整体模型的输入包括工艺参数和历史质量指标。在模型DTCN_A的编码器中,深度TCN通过构建扩张因果卷积来捕获工艺参数中的长时期依赖关系;时序注意力机制用于加强关键生产时刻的信息表达,削弱冗余时刻信息;解码器利用残差LSTM网络来挖掘工艺质量的时序信息,最后综合模型提取工艺参数的关联时序信息和工艺质量的时序信息来预测当前时刻的质量指标。
车间工艺质量预测等时序问题需要利用历史时段的工艺数据进行建模预测,而不能仅依赖于当前时刻的工艺参数或历史时段的工艺质量,需要综合考虑工艺参数与工艺质量之间的关联时序特征和工艺质量内部蕴含的时序信息。传统的全连接神经网络中,同一层的不同单元之间没有连接,故无法包含工艺参数内部蕴含的时序信息。LSTM网络、门控循环单元(gated recurrent unit, GRU)网络等循环神经网络利用内部存储单元固化“记忆”,并以序列演进方式递归更新,学习数据序列特征。卷积神经网络(convolutional neural networks, CNN)通过卷积计算形成“记忆”,但这些深度学习方法均存在长距离记忆问题。
针对该问题,本文利用TCN挖掘工艺因果卷积特性的同时,有效分析车间工艺多源信息。采用扩张因果卷积提高长时间跨度记忆单元的处理效率,以高效提取工艺参数的特征信息。网络只对历史数据进行顺序读取,摒弃了对未来数据的信息解读,可有效解决信息泄漏的问题。由图1中的编码器模块可知,通过增加卷积核和扩张系数来堆叠多个扩张卷积,可使网络获得更大的感受野,即使用较少的层级来捕获序列中的长时间依赖关系,并保证训练时长。
编码器模块中,输入数据为工艺参数X,即由N个相关工艺参数、总时间跨度为S的时间序列数据构成的S×N的矩阵。输入数据经过网络层中的卷积(卷积核大小为k,扩张系数为d)滤波后,输出P为N个特征图(图2),其中,特征图P(s)是由序列元素与卷积滤波f:{0,1,…,k-1}扩张卷积运算得到的,具体计算公式为
图2 一层多维扩张卷积流程简化图
(3)
式中,*表示卷积运算;f(i)表示第i个滤波器;xs-di为与卷积核相乘的对应的序列元素;s表示扩张卷积中的第s个神经元。
经过多层卷积、压缩操作后,工艺信息存在丢失或失真的可能,故引入残差链接方式,使网络能够跨层传输原始数据中的关联信息,最大限度地关联融合高阶特征与原始低阶特征,完善工艺特征信息。
每个残差块包括直接映射部分和残差部分,其表达式为
(4)
式中,zn为第n层卷积层蕴含的依赖信息;C(·)表示扩张卷积操作,即直接映射部分;R(·)表示跨层进行残差映射操作。
本文模型中的编码器模块由多层卷积核并行构成,以提取深层次特征信息。模块通过组合多个通用残差块对工艺数据进行多维度的特征提取。以残差块为组件,每个组件中,扩张因果卷积、权值规范化、激活函数依次排列。
为聚焦时间步长中的关键时刻,引入时序注意力机制对序列各历史时刻携带的时序信息分配注意力权重,从而提高提取关键时刻信息的能力。时序注意力机制的输入为TCN输出的关联特征信息{h1,h2,…,hT},计算出前t个时刻获取的时序注意力权重lj,t,并使用softmax函数对其进行归一化,得到时间注意力权重
(5)
将t时刻的时间注意力权重βt与TCN输出的隐藏状态ht点乘,得到综合时序信息状态
(6)
式中,lt为线性变化后的时序注意力权重向量,lt=L(Wht+b);L(·)表示激活函数,用以增强特征差异;W、b分别为可训练权重矩阵和计算时序注意力权重的偏置向量;T为时间窗口大小。
为有效整合提取的工艺参数和历史质量指标的特征信息,解码器采用残差LSTM神经网络Resnet-LSTM,并添加全连接层以适应最终质量指标的输出要求。解码器首先利用LSTM网络挖掘出工艺质量Yt的时序特征信息,再通过残差网络对提取出的信息进行更深层次的学习,最后协同由编码器提取的工艺参数潜在深度特征输出Ht,得到当前时刻的预测输出:
(7)
其中,r(·)表示Resnet-LSTM网络函数,用于提取工艺质量时序信息。
Resnet-LSTM结构见图1中的解码器部分,增加的神经网络层级易引发梯度消失和梯度弥散。利用残差链接能有效消除这两个问题,并减少模型参数,提高训练效率,提取更深层次的复杂信息。因此在残差网络结构的基础上,利用LSTM提取历史质量指标序列中的时序信息,再用批量归一化来投影由上层网络得到的时序信息,并使用ReLU激活函数进行非线性处理。最后,添加Dense层以保证输出相同维度的张量,得到历史工艺参数的潜在深层关联时序信息。
如图3所示,LSTM结构采用门控输出的方式控制信息的取舍,即输入门it、遗忘门ft、输出门ot和两种时间状态(ct和隐层的输出ht),下标t表示t时刻。
图3 LSTM结构图
t时刻网络的输出结果为
(8)
式中,σ(·)表示Sigmoid激活函数;bα为偏差,α∈{i,f,c,o,h};⊙表示矩阵的哈达玛积。
假设给定输入数据x=(x1,x2,…,xs),其中,s为时间步长,最后得到的输出为
(9)
不同产线的物料、设备状态和环境参数等不尽相同,因此不同产线需要不同的模型或模型参数。实际运行中,生产方式或设备参数调整导致该场景的样本与原始训练样本存在较大差异时,预训练出的模型参数不适用于当前的生产条件,通过预训练模型得到的特征难以准确预测出质量指标。因此本文引入迁移学习,首先在源域数据中构建出工艺质量预测模型(用来学习工艺数据蕴含的特征知识),然后在目标域的学习任务中,利用迁移学习共享预测模型的网络结构和参数,并根据具体的任务需求调整剩余的网络参数,使得目标域的数据集不仅能继承源域中的学习表达能力,还能实现自身网络模型的再训练,自适应地调整网络参数,满足预测任务需求。
不同产线的相同工序具有相似性,因此利用深度神经网络模型挖掘工艺数据的深层次特征,并对挖掘出的特征进行迁移学习,提出适合不同产线的工艺质量预测方法。将本文构建出的深度神经网络模型作为预训练模型,模型的编码网络部分挖掘工艺参数间的关联时序关系,解码网络部分解析质量指标的历史时序关系,因此需要分析预训练模型的不同网络部分对目标域数据的特征挖掘能力,通过冻结全部特征提取网络和预训练模型参数初始化来实现模型参数的共享,其中,全部特征提取网络包括综合编码器网络和解码器网络。因此迁移学习可定义为:微调模型网络、冻结编码层、冻结全部特征提取层。为验证迁移学习是对模型的有效改进,需对目标域中其他产线的工艺过程进行重新建模学习。构建的模型网络结构与预训练模型网络结构相同,但在目标域数据中进行模型训练即重新训练。4种迁移学习方式的具体说明如下。
重新训练(Mode1):预训练模型的网络结构不变,随机初始化所有层的网络参数,在目标域中重新划分数据集,利用新的测试集训练模型。
微调模型网络(Mode2):将预训练模型的网络结构和参数全部迁移至新模型,即将预训练模型的参数作为新模型参数的初始值。
冻结编码层(Mode3):共享预训练模型的网络结构和编码器的参数,随机初始化剩余网络参数。
冻结全部特征提取层(Mode4):预训练模型的网络结构、编码器及解码器的网络参数不变,随机初始化全连接层参数。
为区别Mode3和Mode4的模型结构,绘制出两种迁移模型结构,如图4所示。
(a)Mode3的迁移学习结构 (b)Mode4的迁移学习结构
利用DTCN_A模型训练某产线的离线数据,学习历史数据得到较为完整的工艺深层特征,同时保存预训练模型的网络结构和网络参数。不同的产线需要训练出不同的质量预测模型,为缩短运行时间并保证质量预测的准确率,利用迁移学习将预训练模型中的结构和参数运用至不同产线的工艺质量预测模型。通过对比以上4种迁移策略,选择出最佳模型迁移方法,并构造出适应不同产线的最佳预测模型,工艺过程质量自适应预测流程如图5所示。
图5 工艺过程质量自适应预测流程
为验证模型的有效性,本文以某制丝生产线为例进行实验验证。该制丝过程根据不同叶组配方进行模块分组加工,其中,模块1包含A线、B线、C线(薄板干燥)和D线。部分产线生产工艺顺序如图6所示,烟叶处理过程中,松散回潮工序的质量指标对制丝的最终成品质量具有重大影响,因此每条产线需重点关注松散回潮工序。
图6 制丝工艺图
制丝过程中,每6 s采集一次样本数据并将其存入MES数据库。从MES数据库提取不同产线2021年3月—9月的稳态生产数据并进行分析。本文通过分析松散回潮工序来验证模型的预测性能,为尽可能获取工序的深度隐藏特征,选取样本数据量最大的产线即模型1中的C线。C线采集的39 000条数据包括静态参数、工艺参数和质量指标,其中,静态参数是指设备或来料的固有属性,无法对其进行调节;工艺参数是影响生产质量的关键要素,一般分为有价值调节参数和无价值调节参数。无价值调节参数大多是设备运行的设定值,在实际生产中不调整,因此本文只分析有价值工艺参数与质量指标的关联信息,预测模型的输入与输出如表1所示。
表1 松散回潮设备性能参数表
料头、料尾、停机断料处易出现异常值,且不同生产批次之间的数据存在差异,因此将数据划分成时序矩阵时,要保证输入模型的时序矩阵数据是同一批次数据。各个参数的数量级不同,因此需要对采集的原始数据进行预处理(异常值处理、批次划分和数据归一化)。采用3σ准则检测并删除工艺数据中的异常值,同时使用min-max线性函数对工艺参数和质量指标进行归一化:
(10)
式中,Xnew为归一化后的工艺数据;Xi为原工艺数据,i=1,2,…,N;N为原工艺数据的样本量;Xmin、Xmax分别为单一工艺数据中的最小值和最大值。
在不改变原数据分布的情况下,将工艺数据全部映射到[0,1]范围内。
网络训练及优化均以Dell DESKTOP-VI4SR6N 服务器为硬件平台,处理器为Intel Core i7-8650U,内存为64GB,显卡为UHD Graphics。采用 Python语言,在Keras深度学习框架下以Tensorflow为后端构建DTCN_A神经网络模型,并通过损失函数和Adam优化器来训练模型。建模中,训练集和测试集的比例为7∶3。对不同的网络模型进行50次训练,使用各性能指标均值评估分析模型性能。
采用有监督的学习方式进行模型训练。训练过程中,误差损失衰减并趋于平稳时模型停止训练。误差损失Floss的计算公式为
(11)
将平均绝对误差E1和均方根误差E2作为评估模型预测性能的指标。利用参考拟合优度R2判断模型的拟合效果,它们的公式分别为
(12)
(13)
(14)
基于深度TCN的预测模型参数设置如下:时间步长s=10,迭代次数为200,学习率为0.002,扩张因果卷积的卷积核大小为2;解码器LSTM网络中的隐藏元个数q=10。
DTCN_A模型中的编码器深度挖掘工艺参数,卷积过程中的层数对挖掘程度具有重大影响,因此设置不同的网络层数来探索其对模型性能的影响(表2)。由表2可知,随着编码器层数的增加,对数据的潜在时序关联关系的挖掘更深入;编码器层数为7时的预测模型性能最佳。由图7可见,出料含水率和出料温度的预测值与真实值之间相差的数值均小于0.2。
表2 松散回潮DTCN_A模型中不同编码器层数的模型性能
(a)出料含水率
4.2.1消融实验
本文通过消融实验来验证模型网络结构对提高预测精度的有效性,消融实验的对比模型有TCN、残差LSTM网络、TCN+残差LSTM网络(TCN_L)、注意力机制+残差LSTM网络(A_LSTM)。在相同条件下训练上述模型,结果如表3、图8和图9所示。由表3可以看出,TCN_L的预测效果较优于TCN和残差LSTM网络,A_LSTM的预测效果优于残差LSTM网络,这说明混合模型能提取更丰富的特征信息。TCN_L与A_LSTM都能提高模型的预测精度,因此本文在序列到序列的学习结构下结合TCN、残差LSTM网络和注意力机制,提出DTCN_A网络模型。实验证明DTCN_A的预测效果优于TCN_L和A_LSTM,验证了DTCN_A在网络结构上的有效性。
表3 消融实验的结果
(a)TCN模型
4.2.2对比验证
(1)模型精度对比。为验证模型的预测效果,将传统回归方法(线性回归和多项式回归)、支持向量机回归(SVR-LINEAR、SVR-POLY和SVR-RBF)、DNN、循环神经网络(RNN、LSTM和GRU)、TCN、Seq2Seq按照模型挖掘特征的完整性划分成浅层学习模型、基层深度学习模型和深度模型,将平均绝对误差E1和均方根误差E2作为上述模型的评估分析指标。由表4可知, DTCN_A模型具有较好的预测性能和稳定性。相较于浅层学习模型,DTCN_A模型能提取数据中的时序信息;相较于深度学习模型,DTCN_A模型可以较为全面地获得工艺数据中潜在的深层时序关联特征,进一步减小预测误差。
表4 不同预测模型的预测结果
(2)稳定性验证。为进一步验证DTCN_A模型的稳定性,在考虑预测精度的前提下,计算DNN、RNN、LSTM、GRU、Seq2Seq和DTCN_A在50次模型训练下的平均绝对误差和均方根误差的最大值、最小值、极差和标准差。如表5所示,DTCN_A预测测试集数据的质量指标时,性能指标的变化幅度略小于DNN、RNN、LSTM、GRU和Seq2Seq,这体现了DTCN_A在稳定性上的优势。
表5 50次模型训练的预测模型性能指标
4.2.3泛化性验证
车间工艺质量预测中,模型的泛化能力是重要指标。为测试DTCN_A模型的泛化能力,将该模型应用至一级加料工序(多输出工序)和加香工序(单输出工序)。
一级加料工序的质量指标与松散回潮相同,但有11个工艺参数,将相同条件下收集的33 000条数据组成数据集Ⅰ。加香工序的质量指标为出料含水率,关键工艺参数有5个,将相同条件下收集的37 000条数据组成数据集Ⅱ。
模型DTCN_A对数据集Ⅰ和Ⅱ的泛化能力测试结果如表6所示,DTCN_A的预测结果和真实值的拟合曲线图10、图11。预训练模型在数据集Ⅰ和Ⅱ下的预测精度均在97%以上,说明本文构建的模型具备一定的泛化能力,能适应不同的场景。
表6 预训练模型的泛化能力测试结果
(a)出料含水率
图11 加香工序的出料含水率预测值与真实值
4.3迁移学习策略效果对比
通过重新训练、微调模型参数、冻结编码层和冻结全部特征提取层4种特征迁移方式来更新训练模型,可提高模型预测的准确率、缩短运行时间。以松散回潮工序为例,将不同产线的松散回潮工序的数据作为目标域数据(每组数据集的样本数目不同),每种迁移学习策略均使用ADAM算法调整神经网络各层的参数。通过对比不同迁移学习策略下测试集的准确性和模型更新训练时间(见表7、表8)来选择最佳的迁移学习策略。
表7 A产线松散回潮工序不同迁移学习策略的结果
表8 B产线松散回潮工序不同迁移学习策略的结果
由表7、表8可知,在相同的训练条件下,重新训练(Mode1)的预测未达到满意效果,这是由于无法从有限的训练样本找出深度工艺关联特征。冻结全部特征提取层迁移学习方式(Mode4)的预测效果最佳,且模型训练时间较Mode1短,这是因为Mode4完全继承了原有模型的结构和参数,能较为完整地提取深度潜在特征。预训练模型也存在不理想的预测结果,为此将预模型迭代次数改为100,对预测效果不佳的预训练模型进行模型迁移,预测结果如表9、表10所示。
表9 预训练模型迭代次数为100时A产线的预测结果
表10 预训练模型迭代次数为100时B产线的预测结果
由表9、表10可以看出,采用冻结编码层特征的迁移策略(Mode3)预测的结果最优,这说明迭代次数为100的DTCN_A模型中,编码器能提取较为完整的工艺参数关联时序特征信息,但解码器的特征提取能力不足,需要通过模型的自适应训练和参数更新来达到满意的预测效果,因此模型的训练时间较Mode4长。与Mode1相比,Mode4在保证模型精度的同时,也大大缩短了模型的训练时间。Mode2将C产线松散回潮模型的参数作为其他产线训练模型参数的初始值,继承预模型中的有价值信息较少。Mode4完全采用预训练模型中的网络结构和参数,也继续使用预训练模型的无用信息,导致无法挖掘目标域数据中的工艺特征信息。由此可见,Mode3不仅能继承历史数据的有价值信息,还能消除预训练模型的缺陷,进一步提高型更新速度和预测性能,使其在较短时间内提高模型预测精度,如图12、图13所示。
(a)出料含水率
(a)出料含水率
流程型车间工艺数据具有复杂的时序关联特征,结合TCN与序列到序列的学习结构,构建了质量预测的深层模型DTCN_A,实现了对工艺数据特征的深层学习和表达。DTCN_A模型的编码器通过TCN模型捕捉工艺参量数据中的长时间依赖信息,通过嵌套时序注意力机制重点聚焦关键工艺时刻的信息,提高模型的长时距离表达能力。DTCN_A模型的解码器采用残差LSTM网络模型提取历史质量指标的时序特征信息,训练后的模型能有效利用时序关联性开展单输出和多输出的质量预测。某生产线的实测数据仿真实验表明,质量预测模型DTCN_A具备良好的总体预测精度和个体误差控制能力,明显优于SVR、RNN和Seq2Seq等预测方法。
基于提出的模型DTCN_A,针对流程型车间多产线的加工特性,提出了知识迁移的有效策略。2条生产线的仿真实验证明,模型DTCN_A预测效果良好时,将该模型中的整体网络结构和全部特征提取层的参数迁移至目标域中,可以有效继承模型DTCN_A对深层潜在特征信息的提取能力;模型DTCN_A预测效果不佳时,采用共享该模型的网络结构和编码器参数是一种有效的迁移学习方式,该方法不仅可以继承模型DTCN_A中提取深度特征的能力,同时还能根据目标域数据与源域数据间的差异进行模型的自适应训练,与模型重新训练相比,可以大幅度缩短样本仿真时间、提高模型预测精度。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!