时间:2024-09-03
徐 峰,涂 鹏,刘永春,方新君,任鸿鑫,王增朝,许德江 ,唐 伟
(1.中国铁路上海局集团有限公司 上海铁路卫生监督所南京分所,江苏 南京 210042;2.中国铁路郑州局集团有限公司 郑州铁路卫生监督所,河南 郑州 450000;3.中国铁路济南局集团有限公司 济南铁路卫生监督所,山东 济南 250000)
随着人们食品安全意识的提高,广大群众对食品安全的要求越来越高,除了食品本身质量安全要求外,人们也开始对食品的产地、配料、营养成分等信息给予更多的关注。食品标签作为食品包装重要组成部分,记载了产品相关信息,是消费者了解所购买食品关键信息的主要途径。通过探讨自动识别技术在食品标识上的应用,为食品标识网络识别提供技术支撑。
自动识别技术是运用一定的装置,通过被识别物品和识别装置之间近距离关联活动,自动获取被识别物品相关信息,并提供给计算机后台处理系统来完成相关后续处理的一种技术。近几十年来自动识别技术发展迅猛,逐步形成了包括条码、磁条磁卡、IC卡、声音识别、视觉识别、射频识别(Radio Frequency Identi fi cation,RFID)、 光 学 字 符 识 别(Optical Character Recognition,OCR)等七大类技术体系。食品标识是指食品包装上的文字、图形、符号及一切说明物的总称,应用在食品标识上的识别技术主要有条码技术、RFID技术和OCR技术。
条码技术是在当代信息技术基础上产生和发展起来的一种符号自动识别技术,是实现POS系统、电子数据交换、电子商务、供应链管理的技术基础,是物流管理现代化的重要技术手段[1]。目前,扫描食品标签条码得到的信息有限,主要包括食品名称、中国物品编码中心编码和净含量等,尚不能完整反映食品标识所有内容,利用条码技术很难发现食品安全主要问题。
RFID常称为电子标签、电子条码等,其原理为由扫描器发射一组特定频率的无线电波能量给接收器,用以驱动接收器电路将内部代码送出,扫描器接收此代码。RFID技术在食品安全领域方面的应用已经取得了较为成熟的经验,该技术应用于食品跟踪和追溯的文献较多[2-4]。李海锋等[5]发明了一种基于RFID技术的食品信息管理系统,实现对食品安全的有效管理;航空部门以RFID技术为主要手段,结合条码技术、集成网络、移动通信技术等建立中央数据库,实现了食品安全全程监督管理[6-7]。
OCR是模式识别领域的一个重要分支,是指对输入图像进行分析识别处理,获取图像中文字信息的过程,其涉及图像处理、数字信号处理、模糊数学、计算机、中文信息处理、人工智能等多个学科。OCR技术诞生于上世纪50年代,经过几十年的不断发展改进,各种OCR技术的研究取得了令人瞩目的成果。目前,已经被互联网公司落地的相关应用涉及识别菜单、快递单、身份证、银行卡、车牌、会议白板、广告主干词、试卷、单据、商品包装袋等。在此,探讨OCR技术在食品标识识别领域的应用。
OCR技术包括传统OCR和场景文字识别(Scene Text Recognition,STR)技术,传统OCR指对输入扫描文档图像进行分析处理,识别出图像中文字信息。STR指识别自然场景图片中的文字信息,可以看成是传统OCR技术的自然演进与升级换代。
我国在OCR技术方面的研究起步较晚,20世纪70年代才开始对数字、英文字母、符号及汉字识别技术进行研究。1989年,我国推出了第一套中文OCR软件,从此中文OCR正式走向市场, 随后又推出综合集成汉字识别系统,可以完成多文种(英、日、汉)印刷文本、手写汉字和手写数字的识别输入。
近年来,传统OCR识别技术已经达到较高水平。OCR产品可以自动进行版面分析、表格识别,实现混合文字、多字体、多字号、横竖混排识别的强大功能。目前,市面上的OCR软件有多种,有的优秀软件对印刷体文字识别率甚至接近100%。传统OCR技术广泛应用于医学文本图像识别、身份证识别等多个领域[8-9]。在互联网领域,人们对许多手机扫描翻译小程序已运用自如。
文本的检测和识别是文本识别过程中缺一不可的2个具体步骤,文本检测是识别的前提。相较于传统OCR技术,自然场景图片中的文本检测与识别面临诸多挑战。
2.2.1 自然场景文本检测研究现状
上世纪90年代中期,自然场景文本检测的研究开始见诸报道[10-11],目前已成为计算机视觉领域的热门研究课题,特别是国际文档分析与识别会议(ICDAR) 定期举办的各项技术竞赛推动了该领域的发展,使自然场景文本检测技术的难题和瓶颈不断被突破。
自然场景文本检测的特征提取有2种方法:手工提取和深度网络提取,后者是基于深度学习的方法,始于2014年前后[12-14]。随着Faster R-CNN算法的提出,相继有很多基于深度卷积神经网络的方法问世[15-16],其对自然场景下文本的检测率达到85%左右。近年来,涌现出大量的基于深度学习的自然场景文本检测方法[17-19]。
从自然场景文本检测技术的处理对象看,逐步实现了从单一的英文、阿拉伯数字的文本检测到多语种的文本检测。从检测文本对象的排列方向来看,相比之前研究水平文字为主[18],多方向及弯曲文字的检测近年来受到更多的关注[19-22]。
2.2.2 自然场景文本识别研究现状
自然场景中文本的识别与检测紧密相关,往往需要串联在一起使用。一般先由检测器检测到文字的位置,在这些位置上识别出文字内容。能够同时检测文字位置并对其进行识别的方法被称作是端到端文字识别方法[23]。字符切割的难点主要在于汉字、英文及数字混排导致的复杂场景。国内外学者对复杂场景下文字识别应用的研究报道较多[24-27]。
近年来,自然场景下的文字识别已成为一个充满希望和挑战的研究领域。我国在OCR领域的研究已处国际领先地位,2018年云从科技提出的Pixel-Anchor框架在ICDAR多个测试子集上斩获第一[28];目前,该框架已广泛应用于证件票据识别系统和图片广告过滤系统,每天处理近千万张图片,准确率达96%以上,识别时间降到“秒”级。
食品标识识别属于复杂场景下的字符识别,除了有汉字、英文、数字及常用符号混排外,字符可以有不同的大小、字体、颜色、亮度、对比度等;文本行可能有横向、竖向、弯曲等式样。食品标识中的文字区域还可能会产生变形、残缺、模糊等现象。食品标识的背景极其多样,例如,文字可出现在平面、曲面或折皱面上,文字区域附近可能有复杂的干扰纹理等;有的食品标识还有营养成分表等。
在食品识别领域,Kawano Y等[29]提出利用深度学习技术对食物图像进行分类。MIT的电脑科学和人工智能实验室运用深度学习的方法对社交网站上的食物图片进行分类,通过训练学习总结出人们的饮食偏好。蓝天[30]设计出一个新的卷积神经网络,利用新的跳跃卷积方式,实现了食品识别分类、信息显示和包装文字识别功能。杨波[31]对商品包装表面的文字检测和识别进行了研究。梁坤[32]针对打印在瓶体/瓶盖表面的字符信息开发了一套检测软件系统,向实际应用迈进了一大步。
食品生产商利用计算机视觉技术完成生产过程中食品标签标识的检测。梅特勒-托利多研发了一种镶板,用于替代360度标签检测方法,该方法使用6个或更多摄像头形成详细的包装平面图像,通过软件扫描获得准确信息和进行精准打印,以确保其生产线的每个产品均标注有符合要求的标签。
随着科技的发展,智能手机性能大大提升。目前部分文字识别手机小程序采用了人工智能原理,通过大数据分析、深度学习,即便是遇到复杂场景下成像的图片,也能轻松地将表格和文字准确提取出来,为人们的工作和生活带来便利。
食品标识识别技术没有专门的软件和小程序。用于文字识别的手机小程序有100多种,研究选择了9种,包括图片文字识别、传图识字、金鸣OCR表格文字识别程序、百度AI体验中心、传图识字AI(普通识别、精准识别、手写识别)、迅捷文字识别和文字识别全能王。采用华为手机对9种识别方法分别识别20种食品标识(平面和曲面标识各10种)进行比较,结果表明:百度AI体验中心和传图识字AI (精准识别)对平面标识的识别准确率较高,对10种平面食品标识营养成分表识别字符数965个、识别率97.8%,其他内容识别字符数1 987个、识别率98.0%;传图识字对曲面标识的识别准确率较高,对10种曲面食品标识营养成分表识别字符数712个、识别率88.2%,其他内容识别字符数3 783个、识别率95.6%。文字识别手机小程序对食品标识识别比较如表1所示。
表1 文字识别手机小程序对食品标识识别比较
根据前述对国内外文字识别技术的介绍,食品标识识别属于复杂场景下的字符识别。目前,场景文字识别应用场景越来越多,如监控识别车牌、智能导航识别路标、无人驾驶技术等场景文字识别取得了巨大进步[22]。但由于食品标识涉及多语言、多方向及弯曲文字,背景复杂多变,食品标识的识别仍面临诸多挑战。对食品标识识别技术发展趋势展望如下。
(1)3D技术实现食品标识信息有效采集。对于同一食品有多版面标识的,可以利用3D技术从各种角度同步检测每个版面信息,将不同版面标识信息图像拼接到一起,形成整个包装的平整图像信息,最后输出完整的食品标识信息。
(2)单纯OCR技术解决禁止性问题。食品标识识别过程中,应建立统一格式的食品标识模板。首先经过OCR文字识别,然后通过自然语言处理(NLP)修正错误词语,并将同一食品包装不同图片识别信息按品名、生产日期、保质期、配料等进行分类;找到对应的预设模板,输出格式化标识信息,再与问题库对照,进行精细识别,最终输出初步评估结果。食品标签上自带的条码、二维码或溯源标识通过扫描应自动读取识别相关信息并录入。对于OCR技术难于识别的食品标识,建议手动输入或由生产厂家提供标识电子模板。
(3)相关网站链接解决真实性问题。与国家食品药品监督管理总局网站和相关网站建立链接,可以查询食品生产许可情况,从而辨别食品生产厂家真伪,也可对全路站车预包装食品标识采集照片识别,发现生产许可存在问题的厂家,下载其相关信息并建立相应的问题库,便于比对。与食品安全国家标准/地方标准建立链接,便于查询引用标准的正确性。
(4)人工智能解决逻辑性问题。将相应算法和人工智能相结合,自动识别食品标识中存在的逻辑性问题。食品强制性国家标准中涉及特别标签标识的内容应属逻辑性问题。例如,引用GB 15266—2009 运动饮料标准,应标注可溶性固形物、钠、钾的含量范围,如不标注则存在逻辑性问题。
(5)建立完善食品标签标识信息数据库。与国家和各省市食品标签抽检平台建立链接;自动保存已识别的食品标识,并对合格食品标识和问题食品标识进行分类,以便在今后食品标识识别过程中,遇到同样的食品标识自动提示。
食品标识识别技术涉及计算机视觉与模式识别、自然语言处理等多个领域,是一个具有重要理论意义和实际应用价值的新兴研究课题,国内外一些研究者对此均有涉猎。但食品标识这种复杂场景文本识别面临的诸多难题和挑战,使该技术与实际实用仍然有一定距离。通过对国内外食品标识识别技术的归纳整理和该技术未来发展方向的展望,相信随着计算机视觉、深度学习等领域的发展,自然场景文本检测与识别技术问题将不断被解决,食品标识识别技术的应用难题将得以攻克。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!