时间:2024-06-19
卢 忱,王 晶
(1.中兴通讯股份有限公司,陕西 西安 710114;2.西安邮电大学 计算机学院,陕西 西安 710121)
一种基于自动标签机制的行为识别模型迁移方法
卢忱1,王晶2
(1.中兴通讯股份有限公司,陕西 西安 710114;2.西安邮电大学 计算机学院,陕西 西安 710121)
随着智能手机用户数量的逐年增长,很多情景感知相关的研究也逐步开展。基于智能手机的人体行为识别已成为用户自适应感知服务中的重要研究课题。尽管有很多研究者已经尝试使用移动设备进行用户行为识别,但依旧难于从不确定的、不完整的以及不充足的移动设备传感器数据中推测出用户的行为。文中提出一种基于自动标签机制的人体行为识别模型迁移方法,利用集成学习分治思想以及深度学习网络(MLP)构建自动标签系统对新用户数据进行打标签,将打完标签的数据划归到通用模型的训练集中进行重新训练,以此完成模型迁移。实验结果表明,迁移学习后的行为识别模型能有效提高行为识别准确率。
行为识别;集成学习;深度网络;自动标签系统;模型迁移
随着智能手机的普及以及各种手机应用逐渐走进人们的生活,基于智能手机的人体行为识别研究近年来成为国内外学者研究的热点。但是大多数的研究工作都是在已有的数据集上构建通用模型[1,2],当这些通用模型用于数据集以外的新用户时,由于用户自身行为习惯、手机放置的方位以及手机内嵌传感器性能的差异,导致了新用户的数据分布与已有数据集差异较大,从而造成通用模型的识别准确率下降[3]。已经有学者开始研究通用模型迁移学习的问题,文献[4]事先构建通用模型,在将通用模型应用到新用户时,让用户自主对识别的结果进行评判,若模型识别正确,则用户返回正反馈,否则返回负反馈,这就需要用户在使用该识别系统之前要参与到该系统的迁移学习过程中,既给用户带来了使用负担,也加长了模型修改的时耗。文献[5]提出一种基于人工标签数据的模型迁移方法,在通用模型迁移之前对新用户进行一次小量的数据采集,由于这些数据在采集的时候就带有标签,所以直接将其放到通用模型的训练集中,利用文中提出的KSAM迁移算法对通用模型进行模型迁移。该方法虽然得到了较好的识别准确率,但是在实际应用时还是会给用户带来了诸多不便。文献[6]提出一种带权值样本筛选的迁移方法,该方法将训练集进行分割并赋予样本权重,根据训练样本在极速学习机(ELM)上的分类结果对样本权重进行修改,经过多次迭代后得到与目标域数据最相近的训练集,再次构建识别模型。该方法最终实现了通用模型的迁移学习,但是整个迁移过程中样本筛选步骤繁杂,迭代次数也依赖于训练集和目标域数据的规模,具有不确定性。文献[7]中提出了一种基于有标签和无标签数据的协同训练多专家系统行为识别方法,在包含有标签和无标签数据的集合上首先利用K-Means对数据进行聚类,再针对各类构建神经网络模型,将这些模型重新带回原始数据集合进行测试,得到每个模型的综合决策权重输出网络—Gating Network(门网络),所有的这些神经网络组合起来构成一个多专家分类识别系统。但是该方法过程比较复杂,而且需要大量的有标签和无标签数据,整个算法耗时长,而且协同训练后的多专家分类识别系统的识别准确率也不是很理想。
本文针对上述研究的不足,提出一种基于自动标签机制的行为识别模型迁移方法,该方法在通用模型应用于新用户时,主动采集新用户行为数据,利用由集成学习分治思想[8,9]和深度学习网络(MLP)[10,11]共同构建的自动标签系统对这些新数据自动打标签,在模型迁移学习之前将这些打上标签的数据划归到原始训练集中,重新构建适用于该新用户的行为识别模型。
算法主要思想:对原始有标签数据进行分类处理,对于每一个类单独提出来,运用MLP算法训练得到一个此类的标签机(Tagging Machine),然后对新用户的数据,使用训练好的标签机对其进行打标签,当打标签结束后,将这些带有标签的数据按照打上的标签将其归属到原始训练总集里的各个类中去。对于训练集总集使用决策树算法训练得到一个通用模型,在新数据打完标签后,利用重构的训练集数据重新训练一个决策树模型,即为个性化识别模型。此算法分两大阶段:
第一阶段,打标签阶段。如图1为打标签阶段标签机训练过程。
图1 打标签阶段标签机训练过程
将原始数据按类别划分为走路、静止、跑步、上楼、下楼这五个数据区,针对每一个数据区,对原始数据进行预处理、提取特征等操作,形成标签机训练集,即得到各个行为的特征空间,将这些特征空间中的特征向量送入预先设定好结构的MLP模型,训练得到五个基于MLP的神经网络模型,这五个模型就是各自所代表行为的标签机。对标签机进行可信度测试,因为最终要将这五个标签机面向新用户数据使用,所以必须取得每个标签机的可信度,也就是其在综合决策时的决策权重。如图2为标签机的加权投票器的训练过程。
图2 加权投票器训练过程
在这个过程中,首先需要把原始训练集随机等分为五个子集,然后随机将这五个子集分配给五个标签机进行测试,将测试结果与数据真值进行对比,分析之后得到五个标签机的测试正确率ɑ1,ɑ2,ɑ3,ɑ4,ɑ5。经过计算得到各自的决策权重值β1,β2,β3,β4,β5,最后经过归一化处理,得到实际应用的决策权重θ1,θ2,θ3,θ4,θ5。具体运算过程如下:
最终得到一个具有五个标签机的自动打标签系统,其模型如图3所示。
图3 集成学习自动标签法模型
其中,fw(x)表示W标签机对新用户数据打上的标签,为一个1×5的向量,同理,fs(x) 、fr(x)、fd(x)、fu(x)分别是S标签机、R标签机、D标签机、U标签机给用户数据打上的标签。θi为各个标签机对应的系统决策权重值,其中i可取w、s、r、d、u。
第二阶段,模型迁移学习阶段,此阶段使用上一阶段得到的标签数据,将其加入到原始训练集中,对新建成的训练集进行模型重新训练,调用KSAM算法进行模型迁移。
算法描述如下:
(1)新数据打标签阶段
步骤1:划分训练集数据,将原始数据集按照各自类别划分为W,S,R,U,D五个子集,进行预处理,提取特征,得到五个特征集F1,F2,F3,F4,F5;
步骤2:对步骤1中的特征集分别使用MLP算法进行训练,得到五个MLP模型,即为标签机,分别记为M1,M2,M3,M4,M5;
步骤3:将步骤1种的五个特征集F1~F5合并起来,然后随机均等分成5个子集,记为R1,R2,R3,R4,R5;
步骤4:随机分配步骤3中的R1~R5中的集合,给步骤2中的M1~M5,用于测试M1~M5的准确率,并计算得到M1~M5在最终决策中的决策权重。
(2)模型迁移阶段
步骤1:对原始训练集F={F1∪F2∪F3∪F4∪F5},调用CART决策树算法进行模型训练,得到初始化模型;
步骤2:将第(1)阶段得到的综合决策网络及其决策权重,用于新用户数据的打标签,得到新用户数据标签;
步骤3:将新用户标签数据加入到原始训练集中,重新训练。
2.1实验环境及工具
在实验数据采集阶段,所使用的设备为具有Android操作平台的智能手机。该手机内置有三轴加速度传感器。利用该传感器可以实时便捷的获取用户多种日常行为的加速度数据。实验平台为MATLAB软件。MATLAB是一种非常强大的科学计算的工具,由开发环境、函数库、MATLAB语言、图形以及接口这五部分组成。其在处理各种大量数据时表现出了高效率的优秀特性,语言具有很好的可扩充性和交互性、良好的可移植性和开放性、语句简单内涵丰富,并且数据分析结果可以用各种图形形象表示,使得其在科学研究中被广泛使用。
2.2实验数据的获取及预处理
本文在研究人体行为识别时所用的手机加速度数据是由基于Android平台自主开发的采样程序获取,采集智能手机三轴加速度计的加速度数据,包含静止、走路、上楼、下楼、跑步等五种日常行为的加速度数据,采样频率为50Hz,单次采样时长为5s。所得数据以(ax, ay, az)元组(其中ax代表手机坐标系下X轴的加速度值,ay代表手机坐标系下Y轴的加速度值,az代表手机坐标系下Z轴的加速度值)的形式保存于文本文件中。训练集数据采集所用设备:HUAWEI U8950D智能手机,手机操作系统:Android OS;测试集数据采集所用设备:HUAWEI、ZTE、MX、Samsung、小米、HTC等智能手机,手机操作系统:Android OS。采集时手机所处位置:包里、裤兜、手里,手机放置方位任意。采集人数共12人,采样人群年龄分布区间:22~55周岁,采样量:10 次/(人· 位置· 行为)。接下来就是数据预处理(预处理方法:信号截取、滤波、归一化等等)、特征提取,由于要针对每种行为构建标签机,故对每种行为数据提取的特征集是不同的,具体特征集如表1所示。
表1 各个行为对应的特征集
2.3实验设计与结果分析
实验总共分为三组。
第一组:不打标签实验组,通用模型直接对新用户进行识别;
第二组:人工标签实验组,利用人工标签数据进行模型迁移;
第三组:自动打标签实验组,分治法MLP打标签进行模型迁移。
在第一组实验中,将所有训练集数据集合到一起,统一进行预处理、特征提取,然后直接调用CART决策树算法,训练模型,得到通用模型(General Model)。
在第二组实验中,将已有的带标签的新用户数据加入到第一组实验中的训练集中,进行重新训练,即人工标签数据参与的模型迁移学习,得到人工标签迁移模型(Artificial Tagging Transfer Model)。
在第三组实验中,将原始数据集划分为五个子集,一次调用MLP算法训练各自的标签机,再将原始数据集随机均分为五部分,分配给五个标签机,依次进行测试,获取决策权重值。接着,把新用户的数据,直接用各个标签机进行打标签,之后根据每个标签机的决策权重值,综合决策给出数据所属分类,并将其加入到训练集中,进行重新训练,从而进行模型迁移。
上述所有分组实验,其训练集均为5个人的数据组成,其余7人(P1~P7)数据进行迁移学习。实验数据如表2、表3所示。
表2 训练集原始数据
利用上述五个标签机以及相应迁移学习方法进行模型迁移实验,实验结果如表4~表6所示:
表3 单个目标域原始数据
表4 加入人工标签数据进行重新训练前后准确率对比
表5 自动标签法模型迁移(重新训练)前后准确率对比
表6 自动标签法模型迁移(KSAM)前后准确率对比
通过表4~表6可以看出,对于所构建的通用行为模型,在面对新用户时,行为识别正确率较低,平均值为67.23%,说明了对新用户进行行为识别时,通用模型的不适应性以及迁移学习的必要性。表4和表5说明通过人工标签数据加入后进行模型迁移后的识别准确率提高较大,用文中提出的自动标签法进行模型迁移后的准确率有提高,但提高水平相对较低,仅为15.35%。这是因为人工标签数据是用户直接进行行为数据打标签的,其打标签准确率是100%,所以使用同样的迁移学习方法后其提高水平是相当可观的。另外,表5和表6进行对比,可以看出在自动标签法使用后,调用KSAM进行模型迁移的提高水平比直接重新训练后的要高。所以,本文提出的自动标签法模型迁移方法能够提高模型的识别准确率。
利用目标域数据与源域数据之间的分布差异,对新用户数据自动打标签,然后将打上标签的数据归并到原始训练集中,调用决策树算法进行模型重新训练,得到的模型对新用户行为的识别准确率相对于通用模型较高。实验结果表明,该方法能够对新用户数据自动有效地打标签,进而对通用模型进行迁移学习,提高了新用户行为识别的准确率。
(责任编辑 吕春红)
[1] INCELOD, KOSEM, ERSOYC.A Review and Taxonomy of Activity Recognition on Mobile Phones[J]. BioNanoSci,2013(3):145-171.
[2] 衡霞,王忠民.基于手机加速度传感器的人体行为识别[J].西安邮电大学学报,2014,19(6):76-79.
[3] PAN SJ, YANGQ. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10):1345-1359.
[4] JUSSIP,JAYAPRASADB, JUSSI C, et al. Adaptive Activity and Environment Recognition for Mobile Phones [J].Sensors, 2014(14):20753-20778.
[5] 王忠民,王晶,张荣.一种基于人工标签数据的行为识别模型迁移方法[J].西安邮电大学学报,2016,21(2):92-97.
[6] 王忠民,屈肃.一种极速学习机人体行为识别模型迁移方法[J].西安邮电大学学报,2015,20(1):49-54.
[7] Young-Seol Lee, Sung-Bae Cho. Activity recognition with android phone using mixture-of-experts co-trained with labeled and unlabeled data[J].Neurocomputing,2014 (126):106-115.
[8] 周志华,通过集成学习进行知识获取[J].重庆邮电大学学报,2008,20(3):361-362.
[9] 李凯,崔丽娟.集成学习算法的差异性及性能比较[J].计算机工程,2008,34(6):35-37.
[10] 孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810.
[11] 尹宝才,王文通,王立春.深度学习研究综述[J].北京工业大学学报,2015,41(1):41-59.
A Kind of Migration Method of the Behavior Recognition Model Based on Automatic Labeling System
LU Chen,et al
(ZTE Corporation, Xi’an 710114, China)
With the number of smart phone users increasing, a lot of context aware research is gradually carried out. Human behavior recognition based on smart phone has become an important research topic in user adaptive sensing service. Although there are a lot of researchers have tried to use mobile devices for user behavior recognition, But it is still difficult to recognize the user's behavior from the uncertainty, incomplete and inadequate sensor data of the mobile device. In this paper, a method of human behavior recognition model migration based on automatic tagging mechanism is proposed, Using the ensemble learning partition thought and deep learning network (MLP) construction of automatic labeling system on the new user data playing tag, The finished tag data transferred to the general model of training for retraining, in order to complete the model migration. The experimental results show that the model can effectively improve the accuracy of behavior recognition.
behavior recognition; ensemble learning; depth network; automatic label system; model transfer
TP391
A
1008–2093(2016)04–0015–04
2016-06-01
国家自然科学基金资助项目(61373116);陕西省科技统筹创新工程计划项目(2016KTZDGY04-01)
卢忱(1965―),男,辽宁丹东人,副教授,博士,主要从事无线通信安全研究。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!