一种基于角点响应的新字幕检测和定位方法

时间：2024-05-04

郭旦萍

摘要：在视频和图像的语义分析中，字幕信息起着重要的作用。该文提出了一种基于角点响应的字幕检测和定位算法，它能有效处理背景复杂的视频和图像中的字幕信息。相对于非字幕区域而言，在字幕区域中，经常存在密集的边缘和角点，因此，我们可以从字幕区域获取相对强的角点，而从非字幕区域，得到相对弱的角点。这些角点给我们的图像字幕检测和定位提供了非常有用的信息。然后，利用简单的阈值机制，就可以得出字幕候选区域。再结合其他的特征，如颜色，连通区域的大小等，对这些候选区域进行进一步的确认。最后，借助于角点响应对字幕行进行精确定位。实验结果显示出我们所提出方法是非常有效的。

关键词：字幕检测；字幕定位；角点响应

中图分类号：TN919 文献标识码：A 文章编号：1009-3044（2015）12-0179-03

很多年前，研究者们就已经开始关注视频和图像中的字幕检测。字幕可以提供更多直观的信息，并且这些信息往往是和视频内容紧密相关的。因此，利用字幕信息对视频进行语义分析既方便又准确。但是，只有在精确和有效的检测出字幕的基础上，上述这些工作才可能进行。

对字幕检测方面研究方面，现有的方法通常可以分为以下三类：

1）通过设定一些限制条件，来连接字幕区域，比如要满足颜色均匀，一定尺寸大小和空间分布等条件。Jain和Yu结合了颜色和尺寸范围两个特征来确定视频帧中的字幕连通区域[2，3]。这类方法的主要问题是不能普遍应用于所有图像。因为颜色，尺寸以及字体形状在不同的图像中可能会有很大的差别。

2）在假设背景比字幕区域光滑的前提下，通过边缘特征或是纹理密度特征就可能区分开字幕区域和非字幕区域。但是，如何减少复杂背景中的噪声一直是这类方法的一个疑难问题。Lyu et al.提出了一种检测多国语言和多分辨率字幕的方法[4]。他们利用Sobel边缘图特征，并采用一个特定的局部阈值来定位字幕候选区域。Li et al.提出了一种基于图像块中心矩的方法[1]。他们证明可以利用这个特征来检测不同大小的字幕。

3）基于机器学习的思想，从字幕区域和非字幕区域分别提取出一些特征，来训练支持向量机（SVM）或神经网络，从而将字幕检测转化为分类问题。Hu et al.提出了一个基于范例的自适应SVM，是利用最大梯度差和其他连通组件特征对SVM进行训练[6]。这种方法的误检率相对比较低。基于机器学习方法的不足之处在于，它需要大量不同种类的训练样本。

本论文提出了一种基于角点响应的新字幕检测和定位方法。通过特殊滤波器提取出图像中的灰度值角点，这个滤波器的输出结果就是角点响应。角点响应的局部最大值就是著名的Harris角点。虽然角点响应不包含角点的精确位置信息，但是它反映了该像素作为一个拐角点的概率。同时，我们发现它是一个非常适用于字幕检测的特征。它同样能很好地运用于不同的分辨率，因此，也有可能检测出不同尺寸的字幕。同时，再结合颜色均匀和连通区域尺寸两个特征，便能达到很好的检测结果。

对比之前的研究工作，我们的研究主要具有以下三方面的优点：

1）比其他利用边缘或纹理的方法更鲁棒。因为角点响应更有效，并且它在特征提取阶段就已经减少了噪声。即使是背景复杂的图像，我们也能从中检测出字幕。

2）它能检测出大字体字幕，角点响应特征无论是在高分辨率还是低分辨率图像中都能很好地工作。

3）与文献[5]和[7]中的方法相比，我们的方法更有效。因为角点响应非常容易计算，并且我们无须知道角点的具体位置。

本论文的架构如下：在第2部分，我们提出一种基于角点响应的字幕检测和定位方法；第3部分，主要呈现实验结果，并讨论；第4部分是最终结论。

1 检测和定位字幕区域

这一部分主要是介绍如何利用角点响应找出字幕区域。主要分为3步：1）在多尺度空间中计算出角点响应，并且对这些响应进行阈值分割，以得到字幕候选区域。2）结合颜色和区域尺寸两个特征，对字幕候选区域进行确认。3）利用边界框对字幕行进行定位。图1列出了我们整个方案的总流程图。

1.1 计算多尺度角点响应

角点是一个两维的空间特征点，它在区域边缘具有高曲率，可以通过寻找局部最大角点响应找出区域边缘。在参考文献[7]中，连通区域就是通过视频帧中的角点得到的，但是他们利用角点的数量，而不是角点响应，来区分字幕区域和非字幕区域。用角点响应代替角点数量，可以带来以下两方面的改进：第一，我们没必要知道角点的精确坐标信息，只需知道图像的哪部分可能会有角点。角点响应恰是这样一个描述角点可能性的特征。第二，每个像素都可以得到一个连续的角点响应值，这点非常有利于我们的后续处理。

在这，我们简明介绍下角点响应的计算，至于更多的细节信息，请参阅文献[8]。已知图像[I（x，y）]，则计算角点响应的基本等式，如（1）所示。

[CR（x，y）=u，vW（u，v）[I（x+u，y+v）-I（x，y）]2] （1）

其中，[W（u，v）]是窗口函数。当然，角点响应也可由下列（2）式近似算出。

[CR（x，y）=A（x，y）B（x，y）-（C（x，y））2-weight*（A（x，y）+B（x，y））2] （2）

其中，[A（x，y）]，[B（x，y）]和[C（x，y）]的计算如下所示：

[A（x，y）=W（u，v）*（?xI（x，y））2] （3）

[B（x，y）=W（u，v）*（?yI（x，y））2] （4）

[C（x，y）=W（u，v）*?xI（x，y）*?yI（x，y）] （5）

上式中，[?xI（x，y）]和[?yI（x，y）]分别是沿x轴和y轴方向的边缘幅度，可由sobel算子得出。[W（u，v）]是一个高斯平滑模板，公式如下所示：

[W（u，v）=exp-（u2+v2）/2σ] （6）

其中，[σ]值和模板的尺寸可由我们自己选择。

图2 原图和二值化后的角点响应值

图2中，列出了图像和它们的相应角点响应值（如图b，黑色表示角点响应值）。从图中我们可以看出，字幕区域可以和背景区域区分开，当然，复杂背景也可能会检测出来，但是，这些复杂背景可以通过后续步骤去除掉。

1.2 筛选字幕候选区域

基于角点响应值得出字幕候选区域。首先，将图像分成小块，在我们的实验中，选择块的大小为[8×8]。然后，计算出每个小块的角点响应平均强度值[Mblk]。如果[Mblk]满足以下等式，则认为当前块为字幕候选块。

[Mblk>Tblk] （7）

式中，[Tblk]是针对于[Mblk]的一个阈值，其计算公式如下所示：

[Tblk=1H×Wx=0，y=0H，WCR（x，y）] （8）

这里使用的阈值相对比较低，因为在许多像素中角点响应值为0。这是合理的，我们不希望丢失确实包含字幕的图像块，而由背景产生的噪声图像块可以在后续步骤中去除。图3中展示出了字幕候选区域的筛选结果。

（a）（b）

1.3 利用颜色特征确认字幕区域

一般图像中的字幕颜色都一致，同时它又与背景颜色有区别。因此，相对于背景来说，字幕间的灰度值偏差较小，并且，字幕与背景的灰度值相差比较大。我们利用这一特性去除噪声图像块。

按下面等式，在每个候选图像块中，将所有像素的角点响应值与阈值[TCR]比较，以获取图像块中点[Rt]和[Rb]的一个集合。

[CR（x，y）≥TCR，（x，y）∈Rt] （9）

[CR（x，y）

然后，按下面等式计算出[Dev]和[Dis]。式中[g（x，y）]是像素的灰度值。

[Dev=1Nt（x，y） in Rt（g（x，y）-Mt）2] （11）

[Dis=Mt-Mb] （12）

[Mt]和[Mb]分别是集合[Rt]和[Rb]中像素的灰度平均值。

最后，我们确认下面条件是否满足。

[Dis>Tdis Dev

如果满足，则我们认为当前图像块为字幕图像块。图3（c）和图3（d）展示出了字幕区域确认后的结果。虽然存在一些小的噪声区域，但只要利用面积和高度之比非常容易就可以去除这些噪声[3]。

1.4 定位字幕行

经过确认后，我们已经获得了字幕区域，但是，该区域的形状仍然是不规则的，仍需要将这些区域连接成矩形区域。在视频中，字幕区域一般是水平或是垂直排列，我们采用文献[9，10]提出的方案，利用角点响应值对字幕行进行精确定位。其具体做法如下：首先，在每个连通区域中，找出分别处于最边缘的四个像素，并延长成为一个矩形。然后，利用矩形框对字幕行进行定位。对矩形框中的每一行和列，分别计算它们的角点响应强度之和，这样就得出相应曲线，利用此进行行的划分。因为字幕之间存在空隙，必须对曲线进行平滑，因此，我们采用高斯滤波器对曲线进行平滑。最后，利用阈值对矩形框进行修订，精确定位出字幕行。具有的定位结果如图4所示。我们发现，如果设定阈值为峰值的30%时，最后的实验结果比较好。

2 实验结果

我们所提出的字幕检测和定位算法针对大量视频进行了测试，包括电视新闻和电影片段等等。这些视频中的字幕为英语或是中文，分辨率为[320×240]或是[352×288]。

在这里，我们采用了三种最广泛使用的量化评估指标：召回率，精度和速度。召回率指的是能正确检测出真实字幕的百分比。精度指的是所检测出的字幕区域百分之多少是正确的。正确的字幕检测指的是所检测出的区域与该字幕真实区域至少有90%的重叠。我们用处理一幅图像的平均时间来评估速度。

表1列出了具体的实验结果，可以看出，相对于文献[4]和[5]的研究，在召回率近似的前提下，我们的方法可以达到更好的精度。原因可以归纳为以下两方面：首先，角点响应相对于其他特征，自身包含更少的噪声，也就是说，角点响应比其他特征更适用于字幕检测。其次，我们同时结合其他特征，比如颜色和区域大小等，来剔除错误检测。相比于文献[7]中的研究，我们的方法更快，更有效。针对同一幅含有字幕的图像，我们的方法仅花费了30ms来计算角点响应，字幕区域的确认和定位也只花了40ms。而文献[7]的方法，仅仅获取Harris角点的位置信息就花费了75ms，还得至少再花费30ms来定位字幕。上述所有的测试是在同一台计算机上进行的，用的也是同一款计算机视觉软件Hdevelop。

3 结束语

本论文提出了一种基于图像角点响应的字幕检测和定位方法。我们的方法分为以下3个基本步骤：第一，根据图像块的角点响应平均值对字幕区域进行候选；第二，结合其他特征对字幕候选区域进行确认；第三，利用角点响应值对字幕行进行精确定位。实验结果证明了我们所提出的字幕检测和定位方法是非常有效的。

参考文献：

[1] Li H，Doermann D， Kia O. Automatic text detection and tracking in digital video[J]. IEEE Trans. Image Processing， 2001， 9（1）： 147-156.

[2] Yu B ，Jain A. A generic system for form dropout[J]. IEEE Trans. Pattern Analysis And Machine Intelligence， vol. 18， pp. 1127–1134， 1996.

[3] Jain A K， Yu B. Automatic text location in images and video frames[J]. Pattern Recognition， 1998， 31（12）： 2055–2076.

[4] Lyu M R， Song J Q A comprehensive method for multilingual video text detection， localization， and extraction[J]. IEEE Trans. Circuits and System for Video Technology， 2005， 15（2）： 243–255.

[5] Li Xiaojun， Wang Weiqiang， Shuqiang Jiang， Qingming Huang， and Wen Gao， “Fast and effective text detection[C]// Proc. of the IEEE International Conference on Image Processing （ICIP）， 2008.

[6] Hu Shiyan， Chen Minya. Adaptive fre/spl acute/chet kernel based support vector machine for text detection[C]// Proc. of the IEEE International Conference on Acoustics， Speech， and Signal Processing （ICASSP）， 2005.

[7] Xian sheng Hua， Xiang rong Chen， Liu Wenyin， et al. Automatic location of text in video frames[C]// Proceeding of ACM Multimedia 2001 Workshops： Multimedia Information Retrieval （MIR2001）， 2005.

[8] Harris C G ， Stephens M J. A combined corner andedge detector[C]. Proceeding of the 4th Alvey Vision Conference， 1988： 147-152.

[9] Rainer Lienhart， Axel Wernicke. Localizing and segmenting text in images and videos[J]. IEEE Trans.Circuits and System for Video Technology， 2002，12： 256-267.

[10] Xueming Qian， Guizhong Liu， Huan Wang， and Rui Su， “Text detection， localization， and tracking in compressed video[J]. Signal Processing： Image Communication，2007.22（P）：752-768.

[11] 李钦瑞，吕学强，李卓等. 视频中滚动字幕的检测与跟踪[J]. 小型微型计算机系统，2015（3）：631-636.

[12] 孙波. 数字图像角点检测算法的研究[D]. 合肥：合肥工业大学， 2013.

[13] 张洋，朱明. 基于角点检测和自适应阈值的新闻字幕检测[J]. 计算机工程， 2009（13）： 186-187，210.