时间:2024-05-04
刘丰威 潘炜
(广东电网有限责任公司广州供电局 广东省广州市 510620)
企业在使用信息化系统处理关键业务时,要求上传附件资料,以备后用。针对这部分资料的核查确认,传统处理方式是事后人工抽查,核查效率低、覆盖面有限,容易错漏。
本文针对电力行业,针对附件这类非结构化数据,提出一种“基于场景的图像文字稽核系统”,可替代传统的事后人工稽核机制,及时纠正各类风险发生,降低风险因素累计和减少风险发生率。
如今,企业普遍重视信息化建设,通过计算机技术的部署来提高企业的生产运营效率,降低运营风险和成本,从而提高企业整体管理水平和持续经营的能力。企业在使用信息化系统办理业务时,在管理上会要求同步将业务相关附件一并上传存储,这部分数据大部分是扫描件等图像文字。为保证上传附件符合规范和要求,企业还会对其做核查确认,这项工作对企业防范风险来说很重要,稽核工作量也比较大。因此,研究基于场景,使用OCR 技术实现图像文本的快速识别,将解决上述存在难题,很有意义。
目前,企业对单据附件等图像文字核查时,往往采用事后人工稽核机制。以电力营销业务为例,在办理业扩报装业务时,需核对客户相关资料,例如营业执照、居民身份证、房产证等,业务办理过程中将相关资料扫描上传系统,为后续业务执行提供基本信息。为保障用电申请合法合规,业务办理后,会要求营销稽查人员对业务抽样,稽核用户提供的资料是否与用电申请一致。这部分工作之前都是使用人工抽样查阅核实,但由于附件数量大,操作效率低、覆盖面有限,容易错漏,风险防范能力也有限。
一般不同业务场景,上传资料的稽核项也会不同。以电力营销业务为例,其业务组成如表1。
表1 给出了一个高压新装流程的部分环节,每个环节要求上传的附件均有不同,每个业务环节对应一个业务场景,而一个企业一般会有多个业务场景。因为,需提供一种可数据化定义场景的规范,通过配置实现场景构建。本文设计了一种场景构建的基本规范,每种场景由基本属性、数据范围、识别项目和关联问题4 项组成。
如图1,基本属性确定场景使用的流程和环节;数据范围依据选择的流程和环节,显示对应的附件让用户勾选;针对勾选的每一项附件配置需识别的关键信息;对应这些识别的关键信息,从问题规则库中勾选对应的问题选项,四项之间有先后逻辑关系,最后以JSON 结构存储。在后续图像文本识别时,按定义场景批量执行,输出问题数据,最后在系统界面展示出来。表2 为识别项目的结构示意。
图1:场景定义示意图
图2:识别处理流程
以电力营销业务为例,为提高系统稽核工单上传附件的效率,本文将图像文本的识别过程分解为五个步骤:预识别处理、快速分类、全文识别、匹配识别项目、输出稽核结果。每一个待识别的附件载入后进行调整,然后按高度比例分割为上(30%)下(70%)二层,其工作流程如图2所示。
附件调整包括对附件方向、斜角、清晰度不够等不规范的图片调整,使其符合识别的基本参数要求,不合格的附件输出不合格清单,通过人工方式处理;余下分为2 个批次快速分类识别,第1 个批次,仅对附件上部分30%的部分进行识别,快速匹配对应的场景,输出稽核结果;第2 个批次对第一个批次剩下的做全文识别后匹配场景,输出稽核结果。因为,一般附件在上部分都会说明附件名称,例如身份证、营业执照、装拆工单等。通过以上处理,第1 批次将会覆盖95%以上附件,从而提高了稽核速度。
在算法层面,针对文本分类采用了基于深度学习的混合模型的文本分类器。该混合模型主要由三部分组成,前两层使用稀疏自动编码器来构造,中间使用一个三层的深度置信网络,最后用Softmax 回归作为分类层。在图像文字识别方面,组合使用CNN、CTPN、CRNN 算法,提高识别准确度。
表1:业务场景表
表2:识别项目结构
采用B/S 三层架构模式,采用JAVA 语言设计,中间件采用weblogic,场景规则和稽核结果采用JSON 描述。
如图3,系统由场景构建、自动稽核和OCR 图像识别接口3个部分组成。
目前,基于场景的图像文字稽核系统已在广州供电局稽查中心稳定运行,已实现了按场景配置批量自动稽核上传附件的能力,目前构建“计量装拆工单体外循环识别”、“基本电费中封停设备异常识别”、“业扩报装附件合规性识别”3 个场景。通过使用,机器识别相比人工识别,效率提升了10 倍以上,稽核准确度达到95%以上。系统识别界面如图4所示。
图3:系统总体架构关系图
图4:系统识别界面
本文针对电力行业,设计了一种场景构建规范,通过可视化的场景构建,将企业的业务流程与需稽核的项目做配置关联。在对附件等图像文字的快速分类和批量识别时,调用配置场景,自动匹配,输出稽核结果。系统实现了机器代人,7*24 小时运行,全量业务附件自动扫描核查,相比人工,效率高,花费少,基本替代了传统的事后人工稽核机制,使得企业降本增效,有较好的推广应用价值。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!