当前位置:首页 期刊杂志

基于马尔科夫链模型的论文格式审查系统

时间:2024-08-31

唐心亮,王 靖,王震洲

(1.河北科技大学人事处,河北石家庄 050018;2.唐山师范学院计算机科学系,河北唐山063000;3.河北科技大学信息科学与工程学院,河北石家庄 050018)

基于马尔科夫链模型的论文格式审查系统

唐心亮1,王 靖2,王震洲3

(1.河北科技大学人事处,河北石家庄 050018;2.唐山师范学院计算机科学系,河北唐山063000;3.河北科技大学信息科学与工程学院,河北石家庄 050018)

提出一种基于图像处理审查论文格式的方法,该方法依据论文电子版文档图像像素点间的相关性,应用马尔科夫链模型分割文档图像为正文、标题和图片部分,在人工设定的论文格式规则基础上,对论文的每页图像进行分类审查,可有效提高论文格式审查效率。

论文格式审查;图像分割;马尔科夫链;格式规则

随着中国高等教育进入大众化阶段,普通本科生、研究生以及各类学位的攻读人数逐年增加,论文格式审查工作也逐年繁重。格式审查费时费力,然而,目前国内外尚无具体的论文格式审查系统的研究和应用成果。近年来,图像处理技术在各领域得到广泛应用,笔者结合该技术提出一种审查论文格式的方法。

由于不同学校的论文格式要求各异,论文不同部分的格式要求也不尽相同,因此论文审查难度较大。为了提高论文检测的速度和准确性,同时满足论文审查技术的适应性,笔者提出的审查论文格式的技术主要包括2部分。1)图像分割:用马尔科夫链模型对被测论文电子版文档进行分割,分割出每页图像的正文、标题、图片部分。2)格式审查:手工设定的论文格式规则,在此基础上提取不同分割区域中文档图像对应的特征值,不同的区域使用不同的格式审查方法,分割出来被测论文进行分类审查,若不满足其对应的审查方法,表示未通过审查,并使用红色标记。该方法不仅能满足不同论文规则的要求,而且有效地提高了论文审查效率和准确性。论文格式审查流程如图1所示。

1 基于马尔科夫链图像分割

1.1 图像预处理

论文原始图像在采集过程中会引入噪声,减弱了论文图像中的信息,影响图像分割和格式审查效果,针对该问题笔者采用均值滤波和中值滤波的方法对图像进行去噪处理,提高图像信噪比。但是在图像的去噪过程中会平滑原始图像的边缘,文献[1]中提出了基于二维小波变换的图像增强算法,笔者结合该算法实现对去噪后的论文文档图像的增强,为后续图像分割和格式审查奠定基础。

1.2 马尔科夫链

经过图像预处理之后的论文文档图像,应用马尔科夫链分类器实现图像的分割。马尔科夫链(Markov-Chain)[2]是指具备系统在将来发生某件事的条件概率与其过去发生的事件无关,只与系统的当前状态相关的随机过程。如果随机过程{(X t),t∈T},其中,时间集合T=0,1,2,…。设定i对应t时刻随机过程X t的状态,即X t=i,此时X t+1在时刻t+1的状态j的概率分布P ij只与X t在前一时刻t的状态i有关,即有

图1 论文格式审查流程图Fig.1 Flow chat of paper format examination

1.3 论文图像分割

将采集到的论文电子版文档图像视为是1个向量的集合,每个像素点将对应某个向量的分量,2个像素点间的相关性则可使用某种条件概率来描述,1页论文图像就可视作多个满足条件概率的连续状态的集合,因此采用马尔科夫链模型(Markov-Chain模型)[3]进行图像分割的方法是可行的。

由于每页论文文档图像的标题、正文和图片等的位置不固定,计算对论文文档图像进行蛇形扫描,得到论文文档图像向量Y,Y= (y1,y2,…,y i,…,y n),其中yi,yi+1代表相邻的2个像素点,使用nij(Y)来表征相邻的像素点从值i到j跳变的次数,则可得到其跳变概率为P(y i→y j)=P(nij),令Pij=P(nij)[4],即可计算出文档图像像素点跳变的概率分布矩阵P。

利用监督学习的方法,通过大量的论文文档图像对马尔科夫链模型进行训练,分割出图像中正文、标题和图片几部分。

1.4 论文图像分割结果

根据上述对论文文档图像分割方法,将一篇待检测文档图像进行分割,分割结果如图2所示,其中图2a)为待测文档的原图像,图2b)、图2c)、图2d)分别为使用马尔科夫链分类器分割原图像后对应的图片部分、正文区域、标题部分。图像分割的正确结果为下一步格式审查奠定了基础。

图2 论文图像分割结果Fig.2 Results of paper image segmentation

2 格式审查技术

分别将前面分割出来的结果进行审查。论文格式可以根据要求手动输入到系统中,系统根据不同的格式规则要求,对相应的待测文档进行审查,这里以前面分割出来的正文图像部分为例,进行格式审查。

2.1 图像二值化

2.2 字符切分

论文正文格式设置不同必然影响字的宽度和高度,因此将处理后正文图像进行再次分割,切分出正文图像中的行信息,进而分割出每行字符,然后比对该正文格式规则下的字符高度和宽度,实现对正文文本格式的审查。

1)行切分

2.3 正文格式审查

同一个字在不同正文格式设置时的高度是不一样的,例如字体格式的设置,即使是同一字号设置,字形不一致,该字的宽度、高度也不尽相同,因此可以通过比较每个字符的高度和宽度,来判定该字是否符合正文格式要求。经过训练得到该字正文格式下的平均高度和宽度的参考值H,G。系统需要对该格式下正确的文本进行训练,得到该格式下字符高度、宽度的波动范围值ΔH,ΔG。设文字的高度的极值分别为Hmax=H+ΔH,Hmin=H-ΔH;设文字的宽度的极值分别为Gmax=G+ΔG,Gmin=G-ΔG。设定第i行第j个字的左边界为j a,右边界为jb,上边界为ha,下边界为hb,若该字符满足(Gmin≤jb-ja≤Gmax)&&(Hmin≤hbha≤Hmax),则认定该字符满足格式要求,可通过格式审查;若不满足上述条件,则将该正文部分字体颜色设为红色输入,表示未通过该规则下的格式审查。

3 实验结果

以河北科技大学学位论文正文格式要求为例,在系统中手工输入格式要求,字体为小四号宋体,首行缩进2个字符,行距最小值为20磅。设定格式之后,对该规则下的正确文档图像进行训练,得到特征值Gmin,Gmax,Hmin,Hmax,然后对待测文档进行格式审查,审查结果如图3所示,其中图3a)为待测文档图像,文档中部分正文格式不符合该格式要求,图3b)为格式审查输出结果,不符合格式要求的文档部分使用红色(图中虚字)进行标记。

4 结 论

提出一种基于图像处理的论文格式审查技术,将电子版的论文图像采集到系统中,利用文档图像相邻像素点之间的相关性,结合马尔科夫链分类器对每页论文文档图像进行分割,得到图像中的图片、正文、标题部分。手工设定论文中的格式要求,提取此格式下论文中的特征值,审查被测论文格式,不仅提高了论文检测的速度和正确性,而且具有适应性。

图3 正文文档图像格式审查结果Fig.3 Results of examination of text format

[1]杨 静.基于小波变换的低对比度图像增强方法[J].计算机时代(Computer Era),2011(1):10-12.

[2]刘绍辉,孙建超,姚鸿勋.一种改进的基于马尔科夫链的扩频图像隐写分析方法[J].中国科学院研究生院学报(Journal of the Graduate School of the Chinese Academy of Science),2011,28(5):690-695.

[3]宋锦萍,侯玉华,杨晓艺,等.基于小波域多状态隐马尔科夫树模型的自适应正文图像分割算法[J].电子学报(Chinese Journal of Electronices),2007,35(1):118-122.

[4]杜新宇,刘光耀.基于马尔科夫链的光侧图像自动判读方法[J].计算机工程与应用(Computer Engineering and Applications),2008,44(28):246-248.

[5]常丹华,何耘娴,苗 丹.中英混排文档图像粘连字符分割方法的研究[J].激光与红外(Laser &Infrared),2010,40(12):1 369-1 373.

[6]许伦辉,陈衍平,修科鼎.基于图像处理的静态车牌识别技术[J].江西理工大学学报(Journal of Jiangxi University of Science and Technology),2011,23(1):47-50.

[7]杨 霈.基于小波分析的字符图像分割技术[J].太原科技大学学报(Journal of Taiyuan University of Science and Technology),2007,28(4):288-290.

[8]韩立华,王学军,王晓芬.多特征融合及SVM相关反馈技术在教育资源图像检索中的应用[J].河北科技大学学报(Journal of Hebei University of Science and Technology),2010,31(3):240-244.

[9]杨丽娟,刘教民,王震洲,等.基于分块帧差的视频图像运动检测[J].河北科技大学学报(Journal of Hebei University of Science and Technology),2006,27(1):89-92.

Examination of paper format based on Markov-Chain model

TANG Xin-liang1,WANG Jing2,WANG Zhen-zhou3

(1.Personnel Department,Hebei University of Science and Technology,Shijiazhuang Hebei 050018,China;2.Department of Computer Science,Tangshan Normal University,Tangshan Hebei 063000,China;3.College of Information Science and Engineering,Hebei University of Science and Technology,Shijiazhuang Hebei 050018,China)

A method of examining paper format based on image segmentation was proposed.According to the relevance of pixels in the image of electronic paper,paper image was segmented into title,text and pictures by using Markov-Chain model.And every paper image can be examined in accordance with segmentation followed by manually setting the paper format rules.The test results indicate that it is helpful to improve the efficiency of examining paper format.

examination of paper format;image segmentation;Markov-Chain;format rules

TP392

A

1008-1542(2012)05-0434-05

2012-05-28;

2012-09-06;责任编辑:李 穆

河北省自然科学基金资助项目(F2012208004);河北科技大学校立基金资助项目(XL201027)

唐心亮(1977-),男,河北成安人,讲师,博士研究生,主要从事计算机应用方面的研究。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!