改进PSENet的自然场景文本检测方法

时间：2024-05-04

彭栋，支世尧，李盛达，杨鹏

摘要：基于深度学习的检测方法在文本形状较规则的情况下，已经取得较好的检测结果，但对于倾斜以及弯曲的文本行仍有改进空间。文章在渐进式尺度扩展网络PSENet的基础上，通过使用Res2Net模块提取多尺度特征，并结合全局卷积网络GCN进行特征融合，来对原有模型进行改进。根据在SCUT-CTW1500和Total-Text数据集的实验结果对比，证明改进的算法有效可行。

关键词：文本检测; 语义分割; 多尺度; 全局卷积

中图分类号：TP389.1 文献标识码：A 文章编号：1006-8228（2022）06-89-04

Improved PSENet natural scene text detection method

Peng Dong， Zhi Shiyao， Li Shengda， Yang Peng

（School of Information Engineering，Nanjing Audit University， Nanjing， Jiangsu 211815， China）

Abstract： The detection method based on deep learning has achieved good results in the case of regular text shape， but there is still an improved space for tilting and curved text. Based on the progressive scale expansion network PSENet， the original model is improved by using the Res2Net module to extract multi-scale features and combined with the global convolution network GCN. According to the comparison of experimental results in SCUT-CTW1500 and Total-Text data sets， the effectiveness of the improved algorithm is proved.

Key words： text detection; semantic segmentation; multi-scale; global convolution

0 引言

近年来，随着互联网的发展和手机的普及，人们逐渐习惯于从生活场景中获取图片并进行分享。文字作为信息传递的重要载体，如何从自然场景的图片中准确地提取出文字信息变得越来越重要。深度学习的兴起，尤其是卷积神经网络在计算机视觉领域的广泛应用为自然场景下的文本识别带来了发展契机。

对图片中的文本进行识别前，需要预先进行文本检测以提取出文本所在的区域。高性能的文本检测系统可以极大地剔除干扰信息，为文本识别奠定良好的基础[1]。目前，基于深度学习的文本检测方法在文字行形状较规则的场景中已经获得较好的性能，但由于目标检测网络感受野的限制，以及文本目标表达方式的单一，对于文本形状不规则的场景，检测性能仍有提升的空间。

本文在PSENet[2]网络的基础上，结合Res2Net[3]模块和GCN[4]网络对其进行改进，并在标准文字数据集上进行实验结果分析以验证网络的可行性。

1 文本检测网络PSENet

PSENet以残差网络（ResNet）和特征金字塔网络（FPN）作为主干网络，可将底层纹理信息与高层语义信息相结合[5-7]。其实现流程如下。

⑴ 提取ResNet50的第二、三、四以及五阶段的特征图，并通过FPN侧向连接和自顶向下的结构，得到四个256通道的特征图[P2]，[P3]，[P4]，[P5]。

⑵ 将特征图（[P2]，[P3]，[P4]，[P5]）通过函数[C]进一步融合，得到1024通道的特征图[F]，融合公式为：

[F=CP2，P3，P4，P5]

[=P2||Up*2（P3）||Up*4（P4）||Up*8（P5）] ⑴

其中，[Up*2]、[Up*4]、[Up*8]分别代表2倍、4倍、8倍方式的上采样，[||]代表连接操作。

⑶ 特征图[F]作为输入，传递到3[×]3的卷积-BN-ReLU层中，得到256通道的特征图;该特征图再通过n个1[×]1的卷积层并上采样处理后，利用sigmoid函数生成n个图像分割的输出结果：[S1]到[Sn]。

⑷ 每个[Si]是具有不同比例的分割掩码，从具有最小比例的分割结果[S1]开始，通过渐进式尺度扩展算法，将文本实例的内核逐步扩充到[Sn]中的最大形狀;在多个内核扩展的过程中，如果出现像素冲突的问题，则根据先到先服务的原则对冲突像素进行分配。

PSENet是一种基于分割的文本检测方法，通过对输入图像进行像素级别的检测，可有效地处理倾斜或者弯曲文本的检测问题，对于文本行距离较近的稠密场景也有较好的检测性能。但该网络模型仍存在小文本区域遗漏、类文字图案误判等问题，具有进一步优化的空间。

2 改进的PSENet

2.1 Res2Net模块

Res2Net前向传播的具体过程[8，9]如图1所示。

⑴ 输入特征图经过n通道1[×]1的卷积层后，将其划分为s个w通道且空间大小相同的子集，并用[xi]进行表示，其中，[i∈1，2，…，s]，[ n=s×w]。

⑵ 考虑到减少参数与特征复用的因素，忽略[x1]的卷积层，其余的特征图子集[xi]都有相对应的w通道3[×]3卷积层[Ki（∙）]。令[Ki（∙）]的输出为[yi]，将[xi]与[yi-1]相加后作为输入，传递到[Ki（∙）]中处理，即

[yi=xi i=1Kixi i=2Kixi+yi-1 2<i≤s] ⑵

⑶ 经过层内分组与类残差连接的处理后，[y1，y2，…，ys]中含有局部和全局信息，为了对不同尺度的信息进一步融合，将其并联拼接后输入到n通道1[×]1的卷积层。

Res2Net模块所采取的分组-合并策略，通过调控特征图被分成的组数s，在不显著增加计算量与内存消耗的前提下，使得单个的残差块可以更高效地提取特征信息，在细粒度的级别上增强网络的多尺度表达能力，获取不同尺寸的感受野。

2.2 全局卷积网络GCN

GCN模型在使用ResNet作为特征提取网络、FCN作为语义分割框架的基础上，通过添加GCN和BR模块，可同时解决分割任务中的分类与定位问题。在图2的GCN模块中，并没有直接使用更大的卷积核，而是结合Inception V3[10]的思想，将其替换为k×1+1×k和1×k+k×1的卷积组合。在减少卷积核参数的同时，通过调节k值来控制非对称卷积核的大小，实现全局卷积。为了进一步优化物体边界的定位，GCN网络给出了图3所示的BR模块，通过残差连接的形式，学习输入与输出间的误差，并进行边界修正。

GCN网络在与ResNet各阶段的特征图形成远程连接的同时，其内部的类残差结构也形成较多的短程连接，极大地简化了训练学习的过程，增强了信息前后向传播的能力。

2.3 改进的网络模型

如图4所示，本文在PSENet原有网络模型的基础上，进行改进以提高文本检测性能。针对特征提取网络，在ResNet50的网络结构中集成Res2Net模块，通过调整尺度维数s的取值，扩展多尺度特征表达潜力。同时，在特征融合网络中，穿插GCN与BR模块，在全卷积结构的基础上尽可能地使用大卷积核，达到分类与定位问题的平衡点。对于各阶段的特征图，依次利用反卷积进行上采样处理，用高分辨率的特征圖改善低分辨率的特征图，得到精调特征图F。最后结合渐进式尺度扩展算法，逐步生成文本检测结果。

3 实验与结果分析

3.1 实验环境与评估指标

本文在配置NVIDIA GeForce GTX 1070显卡的Ubuntu18.04.1系统下，选用PyTorch 1.2.0框架对模型进行实现。为评估改进后算法的效果，使用SCUT-CTW1500[11]和Total-Text[12]数据集进行训练与测试。SCUT-CTW1500数据集包含1500张图像，其中训练图像1000张，测试图像500张。该数据集的图像不仅类型多样，而且文本形状不规则，具有一定的挑战性。其注释文件中，在行级别基础上，通过14个点所形成的封闭多边形对文本进行标记。而Total-Text是当前检测领域较为常用的弯曲文本行数据集，其训练集含有1255张图像，测试集含有300张图像，并基于单词级别进行标注。

为评判本文所改进模型的好坏，采取文字检测任务中常用的精确率（Precision）、召回率（Recall）以及F1分数（F1-Score）作为评估指标[13]。令TP代表真阳例（True Positive，预测为正样本的正样本），FP代表假阳例（FalsePositive，预测为正样本的负样本），FN代表假阴例（FalseNegative，预测为负样本的正样本），则：

[Precision=TPTP+FP] ⑶

[Recall=TPTP+FN] ⑷

[F1Score=2*Precision*RecallPrecision+Recall] ⑸

3.2 实验结果分析

本文在实验过程中，不使用额外数据集进行预训练，并严格控制其他变量，均在ResNet50+FPN作为主干网络的基础上进行改进。训练次数共计600次，初始学习率为0.01，并在次数迭代至200以及400次时，学习率动态地衰减，以使网络更好地收敛到最优解。同时，为了加快收敛速度，用mini-batch梯度下降法，并将batch size统一设置为4。

在上述实验环境下，针对SCUT-CTW1500和Total-Text数据集进行消融实验，重新训练模型，并在测试集上评估模型性能。将原始的PSENet以及其他文本检测算法与本文改进后的模型效果进行比较，结果如下：

根据表1与表2中的实验数据，本文模型在SCUT-CTW1500和Total-Text数据集上的各项评估指标相较于原PSENet网络皆有所提升。为更直观地体现模型的可行性，对测试图像生成效果对比图，具体如图5所示。对于图5中的小文本区域，由于Res2Net模块可提取多尺度的特征，使小区域也可以单独检测。另外，在GCN网络中边界精修模块的影响下，文本行粘结问题也得到一定的缓解。

4 总结

文字作为信息的重要载体，如何从图片中准确地提取出文字信息是众多科研学者重点关注的问题。而文本检测作为文字识别技术的前提，高性能的检测系统对识别效果起到促进作用。本文针对自然场景下的文本检测问题，在PSENet网络的基础上，结合Res2Net模块与GCN网络对其进行优化，以进一步提高文本检测能力。通过在SCUT-CTW1500和Total-Text数据集上的训练与测试，相较于原始的PSENet网络，本文模型在性能上有所提升，具有一定的有效性。但实验仍有优化的空间，后续可从优化损失函数以及简化后处理操作等方面进行改进。

参考文献（References）：

[1] 梁柏荣.基于深度卷积神经网络的不规则形状文字行检测方法研究[D].厦门大学，2019

[2] Wang W， Xie E， Li X， et al. Shape Robust Text Detection with Progressive Scale Expansion Network[J]. arXiv preprint arXiv：1903.12473，2019

[3] Shang-Hua Gao， Ming-Ming Cheng， Kai Zhao， Xin-Yu Zhang，Ming-Hsuan Yang， Philip Torr. Res2Net：A New Multi-scaleBackbone Architecture.arXiv：1904.01169

[4] Peng， Chao， et al. Large kernel matters-improve semantic segmentation by global convolutional network. Computer Vision and Pattern Recognition （CVPR），2017.7：4353-4361

[5] 施漪涵，仝明磊.基于PSENet的自然場景文字检测网络改进[J].上海电力大学学报，2021，37（1）：73-77

[6] 赵龙，李飞，王伟峰.基于PSENet和CRNN的身份证识别[J].现代计算机，2020（34）：78-82

[7] 王光军.基于神经网络的自然场景中的字符识别算法的研究与实现[D].电子科技大学，2020

[8] 张芮.基于Res2Net的多任务网络及应用注意力机制的自动作曲[D].吉林大学，2020

[9] 刘一群.基于Res2Net的重识别方法[D].吉林大学，2020

[10] Christian Szegedy et al. Rethinking the Inception Architecture for Computer Vision[J]. CoRR， 2015， abs/1512.00567

[11] Yuliang L， Lianwen J， Shuaitao Z， et al. Detecting curve text in the wild： New dataset and new solution[J]. arXiv preprint arXiv：1712.02170，2017

[12] Ch'ng C K， Chan C S. Total-Text： A comprehensive dataset for scene text detection and recognition[C]. In：201714th IAPR International Conference on Document Analysis and Recognition，2017.1：935-942

[13] 付明辉.基于深度学习的自然场景文字检测算法研究[D].北方工业大学，2021