时间:2024-05-04
闫 攀,周 莉,闫会峰
(1. 重庆移通学院大数据与计算机科学学院,重庆 401520;2. 重庆邮电大学软件工程学院,重庆 400065)
随着物联网技术的成熟,物联网数据越来越多,为保证数据库内容的完整性,可在混合云[1]的基础上进行保存,云计算[2]是基于互联网技术的新兴计算方法,这种方法可在高效计算的同时保证数据的存储效率,为用户提供便利。但因为云计算的资源不是本地化,因此数据在上传过程中可能存在数据丢失或盗取的问题[3],严重影响云计算用户数据的安全,为避免混合云下的数据被盗取,现对物联网隐私数据保护模型展开研究。
佘维[4]等人首先在区块链技术的帮助下将物联网系统装置进行标记,保证其不被篡改,其次在白名单的基础上完成哈希表网络,以此隐藏物联网隐私数据,实现物联网隐私数据保护。许斌[5]等人在物联网隐私数据中筛选出最大信息系数将其视为训练样本集,其次基于差分隐私方法将数据集进行分类,最终在线性回归算法的基础上得出隐私数据保护模型,实现物联网隐私数据保护。
以上两种方法在对隐私数据保护过程中没有对数据进行预处理,导致数据中有很多残缺或带有噪声的数据,同时大部分数据不能适用于数据保护模型,大大降低了保护模型的性能,从而导致信息损失度高、数据可用性差、模型性能差以及安全性差。为了解决上述方法中存在的问题,提出混合云存储下物联网隐私数据保护模型研究方法。
由于物联网隐私数据中带有很多错误数据,在对其进行保存前需要进行数据的预处理[6-7],排除其中的噪声。同时需要将数据进行变换,以此保证数据的合法化,同时提高加密效率,进而为隐私数据保护模型的构建奠定基础。
因为物联网隐私数据不能随意丢弃,即使数据中含有残缺数据或数据带有噪声也只能将其进行保存,从而降低了隐私数据的安全性,为提高隐私数据保护性能,可提前对数据进行清理[8],数据的清理也是对残缺数据的填补,在均值替换法的帮助下降低数据间的相似影响程度,并中和数据规范方法将零值视为数据敏感属性的缺失值,从而得出隐私数据的填补公式,其表达式为
(1)
式中,xi代表物联网隐私数据,n代表数据的个数。
假设物联网隐私数据集为T,将其中的准标识符当成目标构建出多维的向量模型M,T中的目标也是模型M的目标t,当目标t没有被标记为噪声或分类为某个簇中的一员时,需对周围的目标进行运算,当模型中的目标小于密度阈值,可直接将小于阈值的目标标记为噪声,反之则构建簇C,同时将目标t和周围目标添加到簇C中,筛选出全部未被标记或未分类到簇中的对象,当其大于密度阈值,直接将其周围数据添加到簇C中;当数据不在任何簇中,可直接将该数据视为已标记过的数据,根据以上对数据处理的步骤将全部数据进行标记处理,从而得出所有带有噪声的数据,并对其进行清理。
物联网隐私数据通常分为数值型和分类型,但这种形式的数据不适用于物联网隐私数据保护模型,需分别对两种数据进行变换。
数值型数据可直接在z-score规范化的方法下对其进行变换,简而言之就是将数据的属性在其均值和标准差的基础上进行规范化处理,其规范化公式为
(2)
式中,v′代表数据的属性值经过规范化处理后的结果,v代表数据的属性值,σA代表属性X的标准值。
分类型数据与数值型数据除了常规差异以外,两者最大的区别就是分类型数据之间的距离相等,用公式进行表示为
|Xi-Xj|=λ
(3)
式中,Xi和Xj均代表分类型数据,λ代表任意两分类型数据之间的距离。
为降低分类型数值转换的误差,可在泛化的基础上进行数据转换,从而保证隐私数据保护模型的性能。
待保护的物联网数据由于准标识符的原因导致部分数据出现一定的损失量,为提高信息损失量的测量精度,精确填补信息,需要分别对数值型与分类型数据进行测量。
2.3.1 数值型属性信息损失量
数值型数据属性的泛化就是提取出更大范围的区间值,计算此类损失量前需要将泛化前后的差异值以及全域值求解出来,并计算出两者之间的比值得出信息的损失,从而得出数值型属性的信息损失度量,其表达式为
(4)
式中,x代表未经过泛化处理的损失量,x′代表经过泛化处理后的损失量,xmax代表损失量的最大值,xmin代表损失量的最小值,x′min代表经过泛化处理后的损失量最小值,x′max代表经过泛化处理后的损失量最大值,Amax代表区域值中属性A的最大值,Amin代表区域值中属性A的最小值。
2.3.2 分类型属性信息损失度量
分类型属性在求解信息损失量的过程中需要利用泛化树的高度进行计算,因此计算前需求解出泛化数的高度,并得出泛化前后属性值的层次,同时求解出层次的高度差,最终计算出泛化树高度与层次高度之间的比值,从而得出分类型属性的信息损失度量,其表达式为
(5)
式中,hx代表属性在泛化树中的高度,hx′代表泛化后属性值在泛化树中的高度。
根据以上方法可完整计算出信息损失量,并将其进行填补处理,保证数据的完整。
由于物联网中的数据过多,为保证数据的安全需对数据进行加密,在海量数据面前,仅仅利用常规方法进行属性分解以及加密会导致密钥出现巨大差异,而大量密钥会占据过多内存,因此只能在混合云的基础上对其进行存储,为了降低密钥存储空间密度,可利用动态加密方法对物联网隐私数据进行处理。
在动态过程中产生的密钥均是独一无二的,且混合云中的密钥均可被利用,因为在密文解密的过程中,不可避免出现很多密文需要共享同一明文的情况,由于物联网隐私数据的位置不尽相同,因此所形成的密文也均存在较小差别。
假设物联网内某数据为aij,当aij中的元素j1大于j2,则j2=modj1;当元素j1小于j2,且ji=j1,当元素j1等于j2时,即可停止运算,此时数据aij1等于aij2,令数据aij内的属性序号为i,利用aij2实现数据加密,其密钥的表达式为
(6)
式中,Ri代表密钥运算中的平衡系数。
式(1)不仅可求解出密钥,也可将其视为密钥的第一次动态变换。
根据该原理得出密钥的第二次动态变换表达式为
Kij=f(aij)
(7)
式中,Rj代表第二次动态变换的平衡系数。
假设物联网数据关系集为R,利用最小加密粒度数竖向将其进行分解,从而得到满足物联网隐私数据要求的属性集合F={F1,F2},将属性F进行分解后可得出有限元C={c1,c2,…,cm},其中的元素为R={a1,a2,…,cn}。
假设有限元公式为
(8)
式中,Nij代表数值型数据,其值域范围为[-d,d],g代表元祖的系数。
从而得出动态变换公式为
(9)
经过随机变换完成动态加密,其中
(10)
在式(5)的帮助下对物联网数据进行加密,并在式(2)的基础上进行解密,完成物联网隐私数据的保护。
对物联网隐私数据的保护不仅需要对数据进行加密,还需对用户自身信息进行保护。
假设最新生成的数据关系R′的元祖数据为(t′1,t′2,…,t′n),根据R′对用户信息进行加密,加密公式为
U=Ek(T)
(11)
式中,E代表对称加密算法,T代表元祖数据合集,U代表用户信息加密结果。
则用户信息解密公式为
(12)
假设f为动态交换加密函数,在不同密钥的帮助下可求解出用户信息的加密和解密结果,经计算两者之间的结果均相同,其表达式为
fk1[fk2(T)]=fk2[fk1(T)]
(13)
在用户数据预处理和实时查询的基础下对用户信息进行保护,预处理的过程如下所示。
在混合云储存的帮助下,可为物联网隐私数据匹配出n个密钥,将其用在加密函数E上,并对已经变换的加密函数进行赋值处理,实现数据库的加密,得出加密表达式为
(14)
式中,Un代表每个密钥对应的加密结果,Vn代表密钥对其中的一个。
在式(9)的帮助下可求解出n个密钥对〈Un,Vn〉,将其传送到k个物联网服务器,并存储其中的密文对。
用户信息的另一个保护步骤就是对数据的实时查询,其过程如下所示。
在用户信息传输协议的帮助下对物联网内k个服务器中的用户信息进行检测,获取出与用户信息相对应的密文对〈Ui,Vi〉。
用户在相应私钥r的帮助下计算出用户信息G=fr(Vi),并将结果传送到物联网数据库。
物联网内用户信息在加密函数f的基础上实现用户信息G的加密,其解密公式为
=fr(ki)
(15)
用户可利用私钥r与相应的密钥对用户信息进行解密处理,得出的表达式为
(16)
根据以上对物联网数据以及用户信息的加密完成物联网隐私数据的保护。
将加密后的物联网隐私数据保存在混合云中可有效加强数据的保护性能,混合云就是将私有云和公共云进行混合从而产生的云计算环境,因此混合云既可以运算用户相关数据和保存,也可以将一般数据进行计算和保存,因此可在混合云的基础上构建出物联网隐私数据保护模型,并将数据加密算法融合其中,保证数据的完整和安全。
在混合云基础上构建的隐私数据保护模型共分为4层,分别为用户层、接口层、管理层以及平台层,其模型图如图1所示。
图1 物联网隐私数据保护模型
在此模型中不同层的功能可同时进行,平台层将隐私数据进行保存,接口层对数据进行加密,用户层对用户身份进行验证,管理层主要摆正整体模型的运行。根据该模型即可完成物联网隐私数据的保护。
为了验证混合云存储下物联网隐私数据保护模型研究方法的有效性,需对模型的信息损失度、数据可用性、模型性能以及安全性进行测试,测试结果如下所示。测试中,将文献[4]算法、文献[5]算法与本文方法进行对比。
保护隐私数据的过程中必须保证信息损失度较低,此时的保护模型才存在意义,在不同物联网数据下利用三种方法进行保护,得出三种方法下的信息损失量,判断信息损失量最低即可得出最优隐私数据保护模型。
图2 不同方法下的信息损失量
根据图2可知,在五组实验结果下均是所提方法的信息损失量最低,保证隐私数据保护性能,其余两种方法的信息损失量均远远超过所提方法,因此极有可能导致数据保护模型失去意义,所提方法的信息损失量低是因为在构建保护模型前对原始数据进行预处理,得出应有的信息损失量并对其进行填补处理,大大保证数据的完整性,从而降低信息损失量。
在隐私数据保护模型中数据量是一个影响数据可用性的直接原因,数据量越多模型中数据可用性越强,选取不同数据量数据,对比三种方法下的数据可用性。对比结果如图3所示。
图3 三种方法的数据可用性
根据图3可知,在何种数据量下的数据可用性最强的均是所提方法,其余两种方法均不同程度地低于多提方法的可用性,从而验证所提方法的有效性。
为进一步验证所提方法的性能,可在同一环境下将三种方法的上传速率与未加密的数据上传速率进行比较,得出最接近未加密数据上传速率的方法即为最优隐私数据保护模型,其结果如图4所示。
图4 三种方法的模型保护性能
由图4可知,所提方法是最接近未加密数据的上传速率,因此证明所提方法的效率是三种方法中最高的,从而验证所提方法的整体性能。
非正常解密方法只能是以暴力或破解密钥获取隐私数据,在加密算法中,扩散性是判断保护模型安全性的重要指标,利用密文的改变率衡量加密数据的扩散性,密文改变率公式为
(17)
式中,M代表密文变化位数,N代表密文的汇总数量,P代表密文改变率。
假设加密算法中明文的数量不再发生变化,若任意一个密钥发生改变,即可得出其密文改变率从而获取其扩散性曲线,继而判断保护模型的安全性。表1为三种方法的对比结果。
表1 三种方法的扩散性
密文改变率越强,数据的扩散性越强即加密的安全性越高,根据表1可知,所提方法的扩散性最高,其平均密文改变率最高,进而验证了所提方法的安全性。
为加强物联网隐私数据安全性,提出混合云存储下物联网隐私数据保护模型研究方法,该方法首先对物联网数据进行预处理,其次将数据进行加密并添加到保护模型中,实现物联网隐私数据保护,解决了信息损失度高、数据可用性差、模型性能差以及安全性差的问题,保证物联网数据的完整和安全。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!