基于K—means颜色聚类分割与边缘检测的文字提取

时间：2024-05-04

吴春法+潘亚文+王敬

摘要：针对自然场景中文字提取受复杂环境因素的影响，如光照不均匀、自然场景背景颜色多样等因素影响，采用任何单一的图像分割技术都无法进行有效地进行文字区域分割和文字提取，提出一种两种方法相结合的自然环境场景中的文字提取方法。首先，采用实现颜色聚类的K-means算法对文本区域与有颜色背景分割，然后在文本区域内对文字进行二值化处理后运用边缘检测的方法提取文字。通过VC++编程环境及OpenCV技术作为该方法的验证平台，结果显示基于K-means算法实现颜色聚类与边缘检测方法相结合能有效进行自然环境中文字的提取。

关键词：自然场景文字；边缘检测； K-means；颜色聚类；连通分析； opencv

中图分类号：TP391 文献标识码：A 文章编号：1009-3044（2017）28-0206-02

Abstract：According to the natural scene text extraction is influenced by complex environmental factors， such as uneven illumination， natural scene background colors and other factors，any single method is unable to effectively carry out the text segmentation and text extraction ，a method of combining two methods of regional segmentation and text extraction is proposed.Firstly， the K-means algorithm is used to segment the text area and the colored background， then the text is processed to white and black value in the text area， and then the edge detection method is used to extract the text. Through the VC++ programming environment and OpenCV technology as the verification platform of the method， the results show that the color clustering and edge detection Based on K-means algorithm can effectively extract the text in the natural environment.

Key words：Natural scene text； edge detection； K-means； color clustering； connectivity analysis； opencv

1 概述

隨着互联网技术及物联网技术的发展，自然场景中文字的提取显得尤为重要。物联网技术部分场景中就需要快速定位自然场景中建筑物上的文字信息。同时，无人机送快递也将在未来快速普及，无人机送快递更需要对道路指示牌、街边广告牌，商店名称等进行文字信息的提取与识别。进行自然场景中文字的提取，识别目标物体中文字信息区域及文字定位是核心，因此进行相关工作具有很好的实际意义。

2 文字候选区域的检测方法

2.1 基于纹理分析技术的方法

纹理是一种反映图像中同质现象的视觉特征，它体现了物体表面的具有缓慢变化或者周期性变化的表面结构组织排列属性。纹理的这种属性决定了，在进行图像识别时无法采用以像素及像素与周边像素的相关性来进行图像识别，因为纹理在局部信息不具有重复性。采用块区域作为信息处理的单位，能比较有效的识别出纹理中的图像信息。在基于纹理分析技术中主要有基于纹理的整体结构、统计分布、信号处理方法、数学模型法等。统计方法主要是基于矩阵原理，主要矩阵有：灰度共生矩阵、灰度行程统计、灰度差分统计、交叉对角矩阵等。信号处理方法可分空间域和变换域，方法有：Radon变换、环形和楔形滤波、离散余弦变换、局部傅立叶变换、局部沃尔什变换、哈马变换Gabor变换、二进制小波、多进制小波、曲波变换等。基于模型的方法是从建模角度出发，给定再生的模型及其参数值，生成图像纹理样本，主要模型有：同步自回归模型、自回归滑动平均模型、滑动平均模型、马尔可夫模型、吉布斯模型、广义长相关模型。结构方法是基于图像中提取纹理结构的基元，然后分析基元的排列规则，如纹理基元描述等；

2.2 基于边缘特征的文本分割方法

图像的分割是把目标区域从背景中提取出来，其中基于边缘特征的方法是比较常见的方法，边缘提取就是利用目标区域和背景区域灰度会出现明显的变化的特点，把目标图像从背景图像中分割开来。常用的边缘检测算子有Sobel算子[1]， Roberts算子[2-3] 、Prewitt算子[4] 、Laplace算子[5] 、Canny算子[6]。Roberts算子是利用局部差分的算子，因为没有图像平滑，因此噪声处理效果不好，但Roberts算子边缘定位准。Prewitt算子加入像素平均相当于低通滤波器功能，因此牺牲了定位准确性加入噪声抑制功能。Sobel算子与Prewitt算子类似，不同的是采用了加权的模板系数，在实际中最常用。Laplace算子是二阶微分算子是一个标量因此不能检测出方向，同时Laplace噪声敏感度强，容易产生双边效果，因此一般不单独使用。Canny算子首先利用高斯平滑滤波对图像进行滤波，然后采用一阶偏导来计算梯度幅值和方向，因此Canny算子是一个具有滤波，增强，检测的多阶段的优化算子，但Canny算子实现起来比较麻烦。考虑到Sobel算子对图像的水平与垂直边缘比较敏感，故我们采用Sobel算子对图像进行检测。因为Sobel算子处理对象主要是二值图像，因此分别对R、G、B分量图像分别进行Sobel算子操作，最后将提取结果合并。Canny算子能得到清晰的边缘，所以我们利用Canny算对边缘图像进行二次边缘提取，把两次结果叠加等方法提取图像中的文本区域。endprint

2.3 基于连通区域的方法

连通区域一般是指图像中具有相同像素值且位置相邻的前景像素点组成的图像区域。连通区域检测是图像分析的一个基本方法，主要处理的对象是二值图像。连通区域检测需要两次扫描，首先进行全区域的扫描对每个元素的邻域进行连通标示并标示等价对，其次进行二次扫描，当发现部分区域是连通的，通过等价对可以修正重新确认该区域为连通的。

2.4 基于学习的方法

大数据时代为基于学习的区域检测方法提供了基础，随着大数据的日渐丰富，基于学习的区域检测有了相对于许多传统方法的许多优势。因为样本训练是基于学习的基础，因此样本的选取直接影响着识别的效果。如果祥本的代表性不够广泛或出现新的情况，通过学习进行区域检测的效果就有限。

3 本文采用的算法

单独采用基于边缘的图像文本提取方法提取自然场景中的文本区域，通常效果不好。鉴于此，考虑到颜色是描述图像内容最直接的视觉特征，而在同一幅场景图像中同一字符区域通常有着相同或相似的颜色。因此，可以采用基于颜色聚类的方法对场景图像进行分割，在文本提取的过程中结合文本的边缘特征，最终有效的提取出场景中的文本信息。故本章拟采用聚类与边缘检测相结合的思路，提取场景文本信息。

3.1 图像聚类

聚类方法大体可以分为5类，有基于划分的方法，包括K-means[7]、FCM、CLARA等；基于层次的方法，包括分裂法和凝聚法；基于密度的方法，包括： DBSCAN、DENCLUE等；基于网格的方法，包括：CLIQUE、Wave Cluster等；基于模型的方法，包括：统计的方法和神经网络的方法。但在图像处理中最常用到的是基于划分的聚类方法，其中K-means聚類方法是应用最为广泛和成熟的方法。故选择K-means聚类算法对图像进行聚类。

K-means算法是由Macqueen（1975）提出的解决聚类分析问题的一种算法，其基本思想是：通过迭代，移动各个基准类别的中心，直至得到最好的聚类结果。

算法步骤如下：

1.通过合适方法选取M个样本点作为M个类别C1，C2，...，CM的初始聚类中心，令循环起始数i=0。

2.通过运算确定点Pi（1≤i≤n），n为图像中像素点的个数）与类别C1，C2，...，CM之间的距离，把点Pi分配给与距离最小的类Cj，（1≤j≤M）。

3.从新确认Cj为聚类中心，按现在所有属于Cj的样本点的平均值来替代。

4.但i达到预先设定的最大循环数时返回到步骤（5），否则令i自加1返回到步骤（2）。

5.把最初在（1）中设定的各类别的中心按（2）-（3）的处理进行更新，把现在的聚类中心作为初始聚类中心，令i=1到返回步骤（2）。直到聚类中心不再被更新为止。

目前，大多数K-means聚类方法在选取聚类数目K和初始聚类中心时都是随机或人为给定的，但是聚类数目和聚类中心的初始化是非常重要的，因为不同聚类数目和初始聚类中心的选择可能导致不同的分割结果。

3.2 文本区域的确定

经过K-means聚类后，接下来工作是如何将子图中可能是字符的区域提取出来。我们采用连通区域分析与标记的方法结合文本启发性知识的限制，对每幅子图中的候选文本图像进行提取。这样就得到了各子图的候选文本区域，这些可能的文本区域可能还会包含一些由于过分割或者通过连通区域分析还未能去除的非文本字符区域，故需要进一步对候选字符区域进行过滤。考虑到字符区域有着丰富边缘的特征，我们可以利用边缘特征作为过滤的条件。为实现提取字符边缘特征的最好效果，同时自然场景中字符的水平与垂直边缘比较突出的特性，采用基于彩色边缘的提取方法，即分别用Sobel算子在原始图像R、G、B分量上进行边缘提取操作，然后几何求和并利用OTSU方法二值化。最后利用字符区域的边缘二值图像对候选文本字符区域进行进一步处理，若这些候选文本字符区域与提取的边缘二值图像无交集，则可判定该区域为非文本字符区域，将其从候选文本字符区域中删除。最后将所有子图像的提取结果合并。

4 实验结果

背景文字提取的关键在于准确定位文字区域和去除背景。本实验的验证工具为VC6.0与OPENCV1.0平台，图1为红红布条文字处理效果对比图、图2为广告牌处理效果对比图、图3为高速指示牌处理效果对比图。

5 结束语

本文利用VC++编程环境及OpenCV技术实现对图像文本提取系统。采用实现颜色聚类的K-means算法对文本区域与有颜色背景分割，然后在文本区域内对文字进行二值化处理后运用边缘检测的方法提取文字，今后将对更复杂环境下文字提取算法对进行完善和改进。

参考文献：

[1] 袁春兰，熊宗龙，周雪花，等.基于Sobel算子的图像边缘检测研究[J].激光与红外，2009，27（1）：85-87.

[2] 贺桂娇. 几种经典的图像边缘检测算子分析比较[J].计算机光盘软件与应用，2014（09）：182-183.

[3] 王冰. 用Roberts算子进行边缘处理 [J].甘肃科技.2008，24（10）：18-20.

[4] 杨道普，马秋禾，石磊. 边缘检测Prewitt算子的改进算法[J].测绘科学，2008，33（S）：18-20.

[5] 郑莹，孙燮华.图像边缘检测Laplace算子的改进[J].沈阳建筑大学学报：自然科学版，2005，21（3）：268-271.

[6] 拓小明，李云红，刘旭，等.基于Canny算子与阈值分割的边缘检测算法 [J].西安工程大学学报2014，28（6）：745-749.

[7] 吴夙慧，成颖，郑彦宁，等.K-means算法研究综述[J].现代图书情报技术，2011（5）：28-35.endprint