时间:2024-08-31
刘 玉,徐 志
(1.南京审计大学 实验中心,江苏 南京,211815)(2.南京市江宁区审计局,江苏 南京,211100)
当前基层审计工作的开展主要采用财务报表的方式,所使用的审计数据来自会计信息系统[1]。随着大数据技术的不断进步,审计数据逐渐向着多源化、异质化发展,以大数据为依据开展审计活动,对于整个审计领域的发展都有极大影响[2]。在更为复杂的工作环境下,创新审计模式,设计大数据审计平台成为当务之急。
文献[3]应用云计算技术,采用Hadoop算法,构建审计全覆盖驱动平台,根据大数据审计平台的设计要求,从理念和策略等多方面分析平台构建重点,通过数据采集、数据处理、数据可视化等多个方面探索审计新方法,但该方法的审计数据质量较低。文献[4]在审计平台设计过程中融合大数据技术,从平台设计、信息支撑等方面提出了审计数据平台设计的新思路,但该审计平台的审计效率较低。文献[5]依托于IaaS(infrastructure as a service,基础设施即服务)和PaaS(platform as a service,平台即服务)技术,把大数据审计平台的工作过程划分为数据采集与处理、数据分析和数据结果显示等环节,以此为基础,构建平台的基础层、服务层、应用层与终端层,在云计算环境下,构建审计平台并实施大数据审计技术,但其对审计数据的利用率较低。
针对上述审计平台所表现出的缺点,本文构建了新的基层审计机关大数据审计平台,综合硬件设计和软件设计两方面,提升平台数据审计性能,并将其应用于实际审计工作中。
前置采集机包括中央处理器、屏幕显示器、计算机接口等多个部件,具备数据实时采集、自动传输等多种功能[6]。本文将其作为一种信息化工具应用于大数据审计平台中,采集审计大数据并将其保存或发布至数据中心。根据审计需求,利用前置采集机获取所需数据,采用无线网络,将前置采集机与数据中心相连,实时更新审计数据。
单刀双掷网络开关作为一种数据传输权限控制设备,主要由动端和不动端构成。所谓的单刀就是开关的动端,与电源线相连接。而双掷则是电源输出的两个端口,亦是不动端。通过对不动端的控制,实现电源输出方向的控制。单刀双掷网络开关的应用既可以完成两台设备的同时控制,也可以对一台设备的运转方向进行实时转换。
前置采集机与单刀双掷网络开关两个硬件的设计,为软件设计提供了支撑,为大数据审计平台建设奠定了基础。
大数据审计平台的工作基础是数据,所以在审计平台的软件设计中,需要构建数据中心[7]。数据中心主要由元数据库、数据仓库和审计资源库3个模块构成。将审计所需的原始数据采集完成后,按照审计标准和审计案例等信息完成数据处理加工。本文采用IDE(integrated drive electronics,集成驱动器电子装置)作为核心数据存储技术,将处理后的数据按照结构化形式统一保存起来。
在构建数据中心时,融入区块链分布式账本的技术。区块链技术是以时间顺序为基础,将链式数据按顺序连接起来,采用分布式节点共识算法达到保存数据的目的[8]。由于上述技术具备不可篡改的特点,使得数据中心内保存的数据具有交叉验证的能力。将所有采集处理后的数据加盖时间戳,保证记载文件具有可追溯性。除了保存数据之外,数据中心的主要功能在于管理采集转换来的数据,使得审计平台中的大量原始数据以及应用数据资源得到良好维护。数据中心依靠相关语句全面管理审计数据应用。在平台应用过程中,依据审计目的和业务需求,选取数据源中符合要求的数据,生成数据集市[9]。通过数据中心的应用,为审计平台的实现提供数据支撑。
数据中心构建的步骤为:第一,定义数据采集流程。该数据采集模块应能提供可视化的数据采集流程和各种二次开发接口,可以实现数据提取、整理、装载等功能。它的引擎可以支持 SQL server、Oracle等大型的主流数据库和其他文本数据库;第二,确定数据采集周期。结合被审核业务的特点,采集过程可以人工启动,也可以采用定期自动增量采集,根据被审核单位的不同,设定采集周期。装入并运行数据采集模板。通过设置好的数据采集模板,生成数据采集可执行文件,在前置机启动运行。
审计过程中可以通过多种方式得到有价值的信息,但是在海量的数据中,审计项目所能应用的仅仅是少部分内容,将这些有价值的信息找出来需要消耗大量的系统资源,造成审计效率较低[10]。本文针对上述问题采用聚焦网络爬虫算法分析当前审计数据内容,并获取抓取的URL与原数据的联系,保证采集数据价值更高,聚焦爬虫的基本流程如图1所示。
图1 审计聚焦网络爬虫
基于聚焦爬虫技术,融合深度优先搜索策略,以某一个网页为开端,选择其中某一个超链接开始搜索,直至到达该超链接的最底层页面。完成上述操作后,回到最初页面,选定其他超链接重复上述操作。依靠最佳优先搜索方法计算主题相似性,采集对应审计数据。排序过程中,首先基于聚焦爬虫技术,得到数据中单词出现的频率:
(1)
(2)
式中:|D|为审计数据文件总数;|{j∶ti∈|D|}|为包含单词ti的文档数。根据完成权重的排序,得到单词权重:
W=fTF×fIDF
(3)
根据上述单词权重计算结果,获取主题的相关性。其中,向量空间的维数与关键字数量n保持一致,依据每个关键字k的权重,获取不同维度的值。而主题q中关键字k的权重表示为fkq,通过海量数据,得到采集数据主题定义α:
(4)
根据关键字所出现的次数,获取出次数的占比。其中,关键字出现的最高频率设为1,根据其他关键字出现频率xi,该页面向量的维度值为xiWi。根据审计数据,得到数据采集页面主题定义β:
(5)
根据相似性排序筛选出最符合要求的URL,得到计算收获率P表示页面主题的相关性:
P= cos(α,β) =
(6)
依据审计要求,设置相似度阈值。当式(6)计算结果大于阈值,表示所采集的数据页面与审计主体相关度较高,可以将其添加至采集队列中。将上述采集数据进行处理,采用数据转换引擎将所有采集的数据转化为统一格式。采用SQL语句对数据进行编程,从中剔除冲突数据,并将其中的缺失数据有效补充。数据处理流程如图2所示。
图2 数据处理过程示意
通过上述的数据采集和处理过程,完成相关审计数据的分析和转换,并将处理后的数据存储到数据中心,为后续数据分析审计提供支撑。
基层审计机关大数据审计平台设计中,最重要的环节是审计数据分析。本文采用历史经验生成审计准则,并将审计数据中的异常信息标注出来,完成审计预警。而审计分析实际上是对审计信息的异常数据分类,所以采用机器学习中的朴素贝叶斯算法,并结合Logistic回归模型,完成审计分析模型的建立。作为常见的分类方法之一,朴素贝叶斯算法计算公式为
(7)
式中:T为条件概率;x、y为两个待分类项。在朴素贝叶斯算法应用过程中,将审计过程划分为以下3个部分:首先是准备阶段,在确定审计业务的特征后,划分待分类项属性信息,生成审计样本;通过计算上述分类中不同类别出现的频率,完成分类器训练;最后,采用训练结束后的分类器,完成审计数据分类统计。
之后,采用Logistic回归模型,对上述分类数据完成二次分类。Logistic回归模型表示为
(8)
其中,审计数据向量g(v)中包含m个独立变量v。通过Logistic回归模型统计分类事件频率,获取条件概率T。之后,应用极大似然估计方法,获取模型参数,并根据回归模型获取审计数据分析结果。
在大数据审计平台中,需要将审计结果以可视化形式体现出来。本文采用计算机图像技术将审计结果转换为图形或图像。平台可视化设计包含两个方面:可视化交互分析和可视化结果展示,前者可以完成审计知识的深入分析,后者可以将审计证据立体化呈现。以人工智能作为可视化设计的基础,模拟人类智能处理隐性数据。并且,审计结果中包含的非结构化文本,可以在可视化处理模式下,转换为结构化可视文本。利用数据结构之间的关联,将时间标签和地理位置,以多态高维时空数据的形式展示出来。
审计平台应用过程中,预先设定审计主体的可能状态,并利用各种颜色和亮度将审计数据中包含的隐藏信息表现出来。以参数优化为基础,构建映射模型,实现抽象要素与具体要素的映射,获取可视化结构数据。采用图形绘制的方式,应用可视化工具可以将审计结果转化为立体化目标视图。根据审计可视化结果,在完成目标盘视图评价的前提下,将审计大数据分析结果呈现出来,保证审计疑点被提取出来。
在信息化迅速发展的时代背景下,Q省以审计厅为首的基层审计机关也开始在审计活动中引入大数据技术,大大提升审计效率。本文以Q省已有的信息化建设为基础,搭建了大数据审计平台,并且以该省为平台应用试点单位,审计当年公务支出公款消费情况,对审计平台应用的过程和结果进行分析。
确定审计目标为Q省公务支出公款消费情况,成立专门的审计工作组并提出审计计划,运用大数据审计平台开展审计行动。本次审计过程中,需要以省财政厅的采购指标、预算编制等作为审计数据,通过多部门的公务支出公款消费数据对比得到质量较高的审计结果。因此,平台应用过程中与省厅财政处、省外侨办等多个机构相联系,采集审计所需数据,如图3所示。
图3 数据采集
本次审计主要对比近3年的数据。根据图3所示的几个部分获取相应数据,并完成审计数据归集,作为大数据审计平台工作的数据基础。
针对上述采集的数据进行处理。由于Q省公务支出公款消费审计涉及多个部门,每个部门的信息化建设有很大差异,使得采集到的数据格式多样,造成审计效率较低。为保证审计数据采集质量,选定专业人员监督数据预处理工作,对于符合要求的数据直接保存到数据中心,对不符合要求的数据要求被审计单位重新提供。在大数据审计平台内,利用审计数据转换模块依托SQL语句处理采集到的数据,将来自不同部门的数据格式转化为统一标准,并将预处理后的数据保存至数据中心。数据处理完成后,汇总如表1所示。
表1 数据汇总 元
将上述数据输入审计数据分析模型,通过数据挖掘的方式提取出审计疑点。由表1可知,Q省公务支出公款消费主要包括公务招待、因公出国与公车运行3个方面。相比其他两项,公车运行费用支出随意性强,对其监督和管理较弱,因此,审计过程中以该部分为重点。具体数据分析中,又以部门维修费支出情况、燃油费支出变化情况,以及公车维修费单车轮胎情况3项内容的异常变化,作为审计重点。
在控制经费总体规模的情况下,分析部门维修费支出变化。由于很多基层部门会将预算额度和预算指标相混淆,对于车辆不变而维修费变化较大的数据,需要进一步核实变化原因。2019-2021年部门维修费用变化情况如图4所示。
图4 2019-2021年部门维修费用变化情况
由图4可知,X3部门2019年维修费用支出与2020年、2021年维修费用变化较大,需要思考年度维修费用报销是否存在递延情况,也就是说年度维修费用结算的开始与结束时间是否符合实际情况。并且,对于该部门2020年的费用控制措施深入调查,分析部门维修费用是否存在虚列支出或挂账消费的情况。
根据公车年度油耗特征,分析部门燃油费支出情况,将油耗量特别大、特别小的数据作为审查疑点。由于可能会出现购买油卡用于其他车辆的情况,审计人员需要对油卡购买管理情况重点关注。近3年的燃油费用支出变化如图5所示。
图5 2019-2021年燃油费变化情况
由图5可知,X3、X4部门的燃油费支出变化存在明显疑点。审计人员对单位油卡购买账册重新查看,分析以上两个部门购买油卡的支出情况与单位的实际车辆消耗是否相符,从而得出审计结果,发出审计预警。
最后,对于Q省公车运行数据中的轮胎维修次数进行分析。总结车辆轮胎维修情况,近3年总价6 000元以上且单个轮胎2 000元以上的轮胎维修次数如图6所示。
图6 2019-2021年轮胎维修次数
由图6可知,2020年轮胎维修次数明显多于2019年和2021年,需要分析该年份车辆维修情况,并分析送去维修的车辆是否属于本单位,从而明确车辆的维修费是否符合实际支出情况。
将上述数据综合考虑,结合分析结果和预设疑点发出审计预警。通过研究可知,本次平台应用案例中所呈现出的疑点主要分为2批,共包括26个模型500个以上的审计疑点,关联60多个基层部门。将上述审计疑点以相同的格式汇总,并根据疑点来源和进一步核查结果,生成审计报告,完成审计平台的整体应用。
在以往的大数据平台中,各部门数据之间具有较高的分散性,无法将信息价值完整地展现出来。本文设计的大数据审计平台,对采集的多个单位相关数据进行处理分析,综合数据内容展开审计活动。经测算本文平台的数据离散程度保持在2%~5%,极大提升了大数据的使用价值。平台通过数据的采集与转换,提升了信息整合能力,有效提高了审计效率。
大数据技术的运用有利于提高审计数据质量,促进审计业务流程创新。本文设计的大数据审计平台,通过数据中心、数据采集与转换、数据分析模型完成整体数据审计,表现出良好的工作性能。将大数据审计平台在基层审计机关中推广应用,有利于提高基层审计效率,提升审计工作智能化水平,进一步满足基层审计机关日益提升的审计工作要求。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!