时间:2024-05-17
彭姣丽
(湖南环境生物职业技术学院,湖南 衡阳 421005)
随着数据规模、运算能力的飞速提升,深度学习开始逐渐显露优势。作为视觉与语言处理的综合任务,自动生成图像描述能够实现从图像到文本的转换功能,拓展了视觉描述的应用范围,例如人机交互、为盲人提供辅助以及幼童教育等。传统自动生成图像描述技术具有一定局限性,无法适用于新场景,与人类描述的关联性较低[1]。因此,该文设计了一种基于深度学习的自动生成图像描述模型,采用深度卷积神经网络作为编码器来提取图像特征,用记忆神经网络生成描述句子。经试验分析,与其他模型相比,该模型的性能较高,各子模块均有助于提高模型图像描述的性能,具有广泛的应用价值。
模型由特征提取、特征融合以及语言处理模块构成。特征提取模块选取微型神经网络Mobilenet V3,其采用深度可分卷积的形式,将标准卷积分为深度卷积和逐点卷积;特征融合模块选取特征金字塔网络(Feature Pyramid Networks,FPN),将低层边缘特征与高层语义特征结合,在提高检测性能的同时也提高了模型的鲁棒性[2];语言处理模块则是选用记忆神经网络(Memory Neural Network,MNN)。模型整体架构如图1 所示,Mobilenet V3 共有10层,除首层的标准卷积层和最后的全连接层以外,其他均是深度可分卷积层。深度可分卷积层将标准卷积分为深度卷积和1×1 的点卷积,DC 表示该层是深度卷积,PC 表示该层是点卷积[3]。在设计中,各层深度卷积和点卷积后应加入定额层和激活层,定额层负责对卷积提取到的特征进行归一化处理,激活层则是对神经网络各层的输出结构进行非线性变换。
图1 模型整体架构设计
演化策略算法(Evolutionary Strategy,ES)是一种通过模拟进化原理来解决参数优化的算法[4]。创建包括x个体的群体p,迭代计算系列群体,在迭代过程中从p中生成y个子体。对各类情况来说,生成子群体的操作如下:1) 从p中选取独立个体作为父代重组。2) 通过重组产生新的个体并变异。迭代后计算其与父代p的误差,得出值后开始排序,从x个子代和y个p代的集合中选择误差最小的向量作为下代p+1。重复迭代过程,直到得到最小精度。与传统图像描述模型不同,该文构建的模型关注结合视觉注意力,以发挥其优势。同时,提及的神经网络可以通过图像描述来弥补将图像输入解码器的弊端。
卷积神经网络在提取视觉信息的过程中具有优势,因此在编码器中可以生成视觉信息。该文采用最后一个卷积层的输出作为图像细节,用v表示在第n个网格位置中的视觉信息,如公式(1)所示。
式中:vn为第n个网格位置的视觉信息。
神经网络可以连接编码器和自适应门阀,其将演化策略算法融入深度学习的全过程中,从而使重构误差最小化,进而达到优化学习模型结构的目的。
将演化策略算法引入深度学习是为了让模型在满足精度要求的同时,具有最简单的结构[5]。由于该模型是通过最小重构误差实现的,因此采用重构误差作为优化目标。神经网络中使用的重构误差可以通过比较视觉层节点t的状态得到。根据通用方法,采用信息散度来衡量不同概率的相似性S,如公式(2)所示。
式中:Dd为数据维度;h为隐藏节点数;k为输入节点数;F为节点效率。
当F(k=t)=F(kDd=t)时,S=0。
节点选择是利用偏差函数计算各节点的适应度,从而根据适应度选择性能更高的隐藏节点。节点被选择的概率应与适应度成反比,实现该设计一般需要设置节点t的选择概率为Ft,如公式(3)所示。
式中:q为隐藏节点数量;Et为节点t的适应度。
这样有利于从父代获得良好遗传,计算节点适应度后,排序节点并设置合理阈值,同时选择具有适应度且小于该阈值Et的节点作为全新的隐藏节点。
可以通过特征提取、特征融合以及语言处理等模块获取视觉特征和文本信息。自适应门阀将接收视觉特征和文本信息(有效利用视觉特征和文本信息)[6]。最便捷的方法是取视觉特征和文本信息的均值表示其拥有同一权重。但是视觉特征与文本信息的权值不应该一致,其原因是当各时步长产生不同描述时,描述焦点是具有差异化的[7]。因此,设计自适应门阀是为了调整视觉特征与文本信息的比例。针对该问题,该文提出了一种能够在各时间步自适应学习的方法,先引入自适应平衡计算阈值ABv,如公式(4)所示。
式中:Vc为视觉特征权重;Ti为文本信息权重;Bm为平衡门阀值。
Bm可以表示文本信息相对视觉特征的必要性,Bm越小,表明模型比较关注视觉信息;当Bm为0 时,表明自适应门阀仅采用视觉特征;当Bm为1 时,表明自适应门阀仅采用文本信息。因此,其关键点是Bm的取值。对自适应门阀来说,视觉模块和文本模块能够帮助自适应门阀有效利用所有可用信息,同样自适应门阀也能平衡视觉与文本信息,使图像描述的效果更好。
Mxnet 是一种开源深度学习框架,可以在计算机视觉和语言处理等方面应用。Mxnet 框架采用Julia 语言接口进行编程,还具有其他开源框架不具有的特性。Mxnet 可视为图形处理器的扩展,其优势在于能够轻松进行代码调试,包括许多损失函数,适用于各类嵌入式框架。该文采用易于调试并能高效扩展的Mxnet 框架来实现自动生成图像描述算法,具体试验环境配置见表1。
表1 试验环境
机器翻译评价指标(Bilingual Evaluation Understudy,BLEU)应用于许多潜在应用中,例如自动生成图像描述,由于评估目的是相同的,因此将生成描述与人工描述进行比较。使用小批量数据平均各类度量,比较生成描述和参考文本中的小批量数据,并计算匹配数量,完全匹配分值为1,不匹配分值为0。小批量数据匹配的是n个长度的元祖相似度,匹配结果与顺序无关,匹配越多,生成的描述越好[8]。BLEU分值由惩罚因子Pf与修正的小批量数据统计精度Sa的均值相乘得到,Pf的引入使计算BLEU分值时须考虑生成句子的长度范围,如公式(5)所示。
式中:d为生成候选句子长度;l为参考句子长度,wm为最大值为m的小批量数据均匀加权的权重。
如果仅计算小批量数据的BLEU分值,那么仅能度量生成描述的充分性,无法保证生成描述的流畅性,导致低质量生成描述会得到较高的评价结果。因此,试验分别对4 个不同的BLEU分值进行计算比较。
在VisualData、Graviti 等数据集上对所设计的模型与几类较常见的模型进行比较:1) NIC 模型和MR 模型是“端→端”的多模态网络,其采用预训练好的卷积神经网络作为编码器,同时采用循环神经网络作为语言模型。2)Hard attention 模型为图像描述生成引入了注意力机制,其通过最大化变分下界的形式进行训练。3) Adaptive 模型能够使用视觉标记(不是非隐藏状态)为解码器提供后备选项。4) SCA-CNN 模型在卷积神经网络中结合空间注意力机制,从而识别多层特征中的特征条目。
当语言模型训练时,VisualData 数据集的小批量数据的大小设置为15,学习率初始化为0.000 1。B1~B4分别表示模型在BLEU评价指标上1~4 的分数。由表2 可知,该文设计的模型的BLEU评价指标比NIC 模型高,显示了特征提取器的差异对图像标注模型性能的影响。此外,该文设计的模型的性能也比其他模型高,为改进基于深度学习的自动生成图像描述算法提供了不同思路。
表2 VisualData 数据集上的模型比较试验(单位:%)
在表3 中加入与MR 模型、Hard attention 模型的比较,当训练该文提出的模型时,根据数据集大小的差异,Graviti数据集的小批量数据设置为60,学习率初始化为0.000 1。
表3 Graviti 数据集上的模型比较试验(单位:%)
该模型与NIC 模型在BLEU评价指标上的分值情况如图2 所示,通过在各数据集上的比较得出该模型在Graviti数据集上的分值提高得更显著。在VisualData 数据集上,该文提出的模型比NIC 模型的B1分值高了10%;在Graviti 数据集上,该文提出的模型比NIC 模型的B2分值高了20%。结果表明,在采用大规模数据集训练该文提出的模型的情况下,增加感受野的形式在更大的数据集中可以获取更多的图像信息,从而有效地提高训练效果。
图2 基于不同数据集的评估结果比较
由试验结果可知,该模型的评价指标比其他图像标注方法高,验证了改进图像特征提取部分可以提高图像描述生成模型的性能。其中,Hard attention 模型通过引入注意力机制来改进卷积神经网络,但是对神经网络结构的改变在一定程度上提高了模型的复杂度,当将模型应用于其他数据集时,所需的参数调整也很复杂。该模型通过改进特征提取形式更精准地识别图像细节,可以提取完整的视觉语义,从而使生成描述与人工描述更接近。
综上所述,利用视觉和文本优势,该文设计了一种基于深度学习的自动生成图像描述模型,该模型由特征提取、特征融合以及语言处理模块构成,并对编码器、神经网络以及自适应门阀进行了定性设计。为了验证模型的有效性,分别在VisualData、Graviti 等数据集上进行模拟试验,在分析后用评价指标BLEU对模型进行评估。试验结果表明,该文设计的AGDL 模型可以生成语义合理的图像描述,且与其他模型相比具有明显优势。在未来工作中应更有计划地探索自适应机制,从而充分利用各类层次的图像信息。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!