当前位置:首页 期刊杂志

关系数据库水印技术在税收数据安全保护中的实践——以大连市银税互动项目为例*

时间:2024-06-19

张文锋,雷珉

(国家税务总局大连市税务局信息中心, 辽宁 大连 116021)

随着税收信息化和税制改革的发展,税务数据的价值日益突显,安全形势也日益严峻。各级税务部门作为网络运营者,承担着对其收集的用户信息严格保密和建立健全用户信息保护制度的义务。近年来,关系数据库水印作为新兴的信息隐藏技术,为税收数据安全保护提供了简便、高效的解决方案。

一、关系数据库水印核心技术介绍

数字水印技术是20世纪90年代出现的一门崭新的技术,它通过在数字产品中嵌入可感知或不可感知的信息来确定数字产品的所有权或检验数字内容的原始性。数字水印技术弥补了加密——解密技术不能对解密后的数据提供进一步保护的不足,弥补了数字签名不能在原始数据中一次性嵌入大量信息的弱点,弥补了数字标签容易被修改和剔除的缺陷,弥补了数字指纹仅能给出破坏者信息的局限[1]。但传统数字水印技术的研究大多集中于多媒体数据的版权保护,由于关系数据库结构与多媒体数据结构的差异,关系数据库水印技术存在实现的难度,进展较为缓慢。

(一)关系数据库水印技术

关系数据库是建立在关系数据库模型基础上的数据库,是税务系统应用开发的主流架构成员。税务系统中常用的关系数据库管理系统有Oracle,Mysql,SqlServer等产品。关系数据库有很多数值型字段,并且在某些运算应用中对数值的精度要求不高。基于这样的自然特性,对数值型字段的值进行较小的改动,产生允许的偏移,就可以找到冗余空间嵌入水印信息。关系数据库水印技术需要有良好的安全性、鲁棒性、透明性、和检测能力。目前,常见的关系数据库水印技术有R·Agrawal和R·Sion在2002年分别提出的两种基于标记策略的关系数据库数字水印技术,牛夏牧在2003年提出的水印验证算法和蒙应杰、吴超等人提出的零水印技术。

(二)K-Medians聚类算法

聚类是将物理或抽象对象的集合组成为由类似的对象组成的多个类的过程[2]。常见的聚类算法有K-Means,MeanShift等。本文采用的K-Mmedians算法是K-means算法的变形,通过指定聚类数目K,可基于数据集合的中位值计算距离函数,把数据分成K个类。K-Mmedians算法简洁高效,不容易受异常值的影响。

二、银税互动项目介绍

银税互动项目是国家税务总局和中国银监会贯彻落实国家发改委要求,助推小微企业发展的重要举措。两个部委联合发布的《关于进一步推动“银税互动”工作的通知》中提到要加大银税信息交流力度,扩大纳税信用信息主动推送范围,丰富银税信息互换内容,加强银税互动信息安全。银税互动信息传递和接收的单位要签订信息保密协议,规范信息使用范围,明确信息保密义务,共同做好信息传递过程中的安全防护工作,确保相关涉税信息不沉淀、不外泄,有效保护企业商业秘密,保障纳税人合法权益。

(一)银税互动类政府共享项目安全风险

从网络安全角度,纵观国内政务数据共享交换项目,主要存在以下几点风险:数据交付方对数据接收方的控制能力弱,难以对接收方使用数据进行有效监督和管理;无法从交换标的本身确认责任方,数据交互双方往往只能靠签订保密协议的方式约定安全责任,缺乏事后电子取证、行为追溯机制;数据接收方一旦出现数据泄漏或违规使用等问题,数据交付方无法证明其真伪、追究其责任,后果无法想象。

(二)大连市银税互动平台项目部署方案

为了增强系统的安全性,大连市税务局银税互动平台项目采用专线连接方式部署,在纳税人授权下为金融机构提供用于评估纳税人金融信贷风险的有效数据,将纳税人的税收信用转换成信贷资本的参考数据,包括企业名单、注册地址、申报信息、征税信息。(见图1)

图1 具体系统拓扑图

三、关系数据库水印技术的实现及项目成效

在银税互动项目中,大连市税务局需要为银行方传输纳税人申报、征收和发票信息,数据经过银行总部模型计算,评估纳税人实际能够贷款的金额。在这个项目中,传输的数据80%为数值型,而且计算模型对各数值型的精度要求不高,有嵌入水印的冗余空间。本文提出并实现了一种在R·Agrawal的标记策略基础上,结合K-Medians聚类算法的关系数据库水印技术。该技术可多次嵌入有意义的水印信息,并且具有更高的鲁棒性和抗攻击性,在数据安全保护工作中具有较好的应用价值。

(一)水印嵌入原理

1.标记选定字段。(1)假设原始关系数据库用H(Q,A1,A2,..,Aj)表示,其中Q为主键,A1,A2,..,Aj为j个选定的可嵌入水印信息的数值型属性列,H中有n个元组,它们分别为h1,h2,…,hj,每个元组r中都有一个主键h.q和j个数值型属性值a1,a2,..,aj。假定主键h.q不可以修改。(2)通过单向加密哈希函数对选定的字段进行标记,标记编号:id(hjaj)=hash(key,hjqj,hiaj)。哈希处理可以改变数据项的原始顺序,不仅可以分散水印产生的偏移对整体数据的影响,而且还可以提高水印的抗攻击能力和提取能力。在计算标记编号时,增加了密钥KEY值,确保计算过程保密可靠。

2.水印预处理。假设需要嵌入的水印信息为CTB。先通过ASCII码对照表,将CTB转换成相应的二进制,得到一组二进制流S。

3.聚类标记字段。为了向数据表中插入多枚水印,需要对标记字段进行聚类。假设需要插入M枚水印,则需要将标记字段分为K类,K=L×M。先计算标记字段的聚类值:w(id)=hash(id(hjaj)),组成数据集合W。利用Python内置Sklearn库中的K-Medians聚类模型对数据集合W进行聚类,并按中心值排序,得到D1,D2,…,DkK类,每一类包含若干个w(id)。

4.嵌入水印。将S1替换D1类对应的每个标记字段的最低有效位LSB,依次替换,直到Sk替换到Dk对应的每一个标记字段中,水印信息嵌入完毕。(见图2)

图2 水印嵌入算法流程

(二)水印提取原理

1.标记选定字段。按照已选定的列名计算水印数据库中字段的标记编号:id(hjaj)=hash(key,hjqj,hjaj)。

2.聚类标记字段。计算标记字段的聚类值:w(id)=hash(id(hjaj)),组成数据集合W。并聚类成K类,K=l×M。根据各聚类的中心值进行排序成D1,D2,…,Dk。

3.提取水印。提取Dk类中对应的数值型字段的最低有效位LSB。考虑到水印数据库可能被修改,需要比较提取出的1和0的个数,假定提取出c个1、e个0,如果c>e,则Sk=1;c

图3 水印提取算法流程

(三)应用部署图

水印技术在银税互动项目中的应用部署如图4。

图4 应用部署图

(四)项目成效

截止至2020年初,大连市税务局银税互动平台已稳定运行一年多,先后有五家银行接入,累计提供数据23万条,国家战略政策初见成效。经过抽检结果显示,水印项目作为大连银税互动项目的重要组成部分,已累计插入水印信息1万枚,分散在近85万个可用数值型属性上。实验抽检结果显示,在数据泄漏30%时就可以通过水印提取算法还原出水印信息,为数据泄露安全责任追究提供有力的电子证据。

四、关系数据库水印技术在税务行业的应用前景

(一)解决第三方留存税收征管数据安全问题

随着政府数字化转型和税收职能的转变,在自然人、社保和非税收入等信息化项目中,税务行业必然会与越来越多的第三方机构进行数据交互。近期,国家税务总局在相关税收征管数据管理办法的征求意见稿中首次提出了第三方留存税收征管数据的安全问题,未经税务机关允许,要求第三方不得对其留存的税收征管数据进行转让、备份、篡改、破坏等操作,不得用于其他未经允许的各种行为。使用关系数据库水印技术可以明确电子数据所有权,为第三方安全责任问责制提供有力的电子凭证和法律证据,在解决第三方数据安全管理工作中有重大应用价值。

(二)满足等级保护2.0对大数据等新技术的安全要求

国家对信息安全技术与网络安全保护正式迈入等级保护2.0时代,等级保护2.0对大数据等新技术新应用提出了安全标准。按照等级保护2.0标准,大数据平台应对数据采集终端、数据导入服务组件、数据导出终端等的使用实施身份鉴别,应设置数据安全标记功能,基于安全标记的授权和访问控制措施,满足细粒度授权访问控制管理能力要求。使用关系数据库水印技术可以从数据本身出发,实现身份标记,为各种授权访问控制提供基础信息,满足等级保护2.0的相关要求。

(三)解决外包运维中的安全问题

目前,各级税务部门普遍使用信息化运维外包服务。2017年国家税务总局专门下发了《税务系统外部技术支持人员网络安全管理规范》,要求规范约束审计外部技术人员运维行为,防止出现数据泄漏等安全事故。关系数据库水印技术可以标记多方运维公司,解决多家运维商同时使用金三接口时,对金三数据的运维安全责任追究问题。

(四)探索电子发票防伪技术新思路

数字水印广泛使用于多媒体文件版权保护中,很多播放器可以鉴别正版多媒体文件。未来可以利用关系数据库水印技术,通过开票客户端程序识别电子发票数据的真伪,防止电子发票数据被篡改假冒。

五、关系数据库水印技术的研究方向

(一)水印技术的法律效力有待提高

当前数据所有权的归属问题尚未达成法律层面共识,数据交换行为无规范约束,充满了法律风险,极易损害数据交互主体的基本权利。关系数据库水印技术虽然是解决数据所有权问题最好的方案,但是关系数据库水印还存在社会公信力问题,目前尚未有一个有力的水印第三方认证机构对水印进行认证管理,水印的法律效力还有待进一步提高。

(二)非数值型字段水印技术的实践研究

本文设计的关系数据库水印技术适用于数值型数据,主要基于数值型字段允许误差的原理,找到了水印添加的冗余空间。然而税收数据中还存在着诸如纳税人名称、注册地址等非数值型数据。非数值型数据精度比较高,任何改变都可能导致数据失去原有含义,使用本文方法就找不到冗余空间。目前基于非数值型字段嵌入水印技术已有一些理论研究,还有待进一步实践应用。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!