基于MEMS惯性传感器的手势识别

时间：2024-06-19

张乐，陈乐翔

（商洛学院电子信息与电气工程学院，陕西商洛 726000）

惯性传感器可以测量物体的加速度和角速度等运动参数，通过分析这些数据可以准确地识别出使用者所做的手势，并将其转换为控制命令，从而实现人机交互。因此，基于惯性传感器的手势识别就成为人机交互领域中备受关注的研究课题[1]。目前，实现手势识别的方法有三类：基于数据手套的手势识别方法[2]、基于微机电系统（Micro Electro Mechanical System，MEMS）惯性传感器的手势识别方法[3-4]和基于视觉的手势识别方法[5-6]。基于数据手套的手势识别方法需要大量的传感器，操作不够便捷和人性化，成本也相对较高，难以得到推广。基于视觉的手势识别技术在处理图像和视频方面已经非常成熟，但其依赖于设备的图像处理能力和使用环境。例如，光照强度、环境背景和手部遮挡等因素都可能影响手势识别的准确性，使得该方法的应用场景大大受限。基于加速度传感器的手势识别方法具有较强的环境抗干扰能力，越来越使研究者重视。荆雷等[7]利用动态时间规整（Dynamic Time Warping，DTW）算法实现了一种基于加速度信号的手势识别，该方法更优于隐马尔可夫模型，但实时性较差。刘珠峰等[8]通过在手势信号重采样阶段进行中点补偿等优化方法，提升了模型的训练效率，取得了较好的识别效果。陈意等[9]通过提取加速度特征和加速度变化规律，利用决策树算法实现了手势识别，该方法不仅简单有效，且鲁棒性较好。随着微电子技术的持续发展，各类MEMS传感器被不断地集成到智能终端，且智能终端的算力不断提高，为研究基于智能终端的手势识别研究应用提供了有利条件[10-12]。本文以智能手机MEMS惯性传感器为载体，提出了LSTM-D和GRU-D模型，两种模型均能有效提取各种手势的运动学特征及设备的姿态变化规律，顺利完成10类手势识别。

1 门控循环单元网络

与传统的前馈神经网络不同，循环神经网络是一类具有短期记忆能力的神经网络，能够在一定程度上提升网络模型的建模能力。然而，当给网络输入信息序列较长时，会出现梯度消失或梯度爆炸问题。

为了有效解决这种长程依赖问题，门控循环单元网络在循环神经网络的基础上引入了门控机制用来控制神经网络中信息的传递方式，从而成功地缓解了梯度爆炸和梯度消失问题。

1.1 长短期记忆网络

长短期记忆网络（Long Short-Term Memory，LSTM）由一系列的记忆单元构成，每个记忆单元结构如图1所示。记忆单元有3个“门”：输入门、输出门和遗忘门，分别用于控制信息的保存、信息的输出和信息的丢弃，从而控制信息传递的路径。

图1 LSTM记忆单元

图1中，在LSTM网络中，每个LSTM单元针对输入进行计算的过程为：

其中，σ表示Sigmoid激活函数，tanh表示双曲正切函数；it、ot、ft、ct和c～t分别表示输入门、输出门、遗忘门、记忆单元内容和新记忆单元内容；W表示权重矩阵；b表示偏置，比如bi表示输入门的偏置向量；ht为时间t时的隐含层向量。⊙表示向量元素乘积，⊕表示向量元素和。

1.2 门控循环神经单元

门控循环单元（Gated Recurrent Unit，GRU）网络是一种比LSTM网络更加简单的循环神经网络，其将LSTM记忆单元的遗忘门和输入门信息进行合并，在不损失记忆能力的同时，缩减了“门”的数量，从而提升了网络的训练效率。GRU网络的记忆单元如图2所示。

图2 GRU记忆单元

图2中，在GRU网络中，每个GRU单元针对输入进行计算的过程为：

其中，rt、zt和xt分别表示重置门、更新门和输入向量；⊙表示向量元素乘积，⊕表示向量元素和。

2 手势识别模型

2.1 X-D手势识别网络模型

本文构建的手势识别网络模型以X网络为核心，由X网络和全连接网络串联构成的一种网络结构，其中，X为LSTM或GRU，如图3所示。数据首先进入到X网络，X单元会对信息进行张量运算。X网络由多层X层构成，且每层X层又由多个X单元构成。然后进入到Dropout层，用于丢弃一些神经元节点，从而防止模型过拟合。多层Dropout层和X层堆叠构成特征提取网络，用于提取手势数据信息中的关键特征。接着进入归一化处理层，用于对中间层进行归一化操作，使模型更易优化。再进入到全连接层，用于实现手势分类任务。全连接层共3层，且最后一层采用softmax函数进行激活。

图3 X-D网络结构

2.2 模型评价指标

测试集上的评价指标采用分类任务中常用的准确率（Accuracy，A）、召回率（Recall，R）、精准率（Precision，P）及 F1 分数（F1 Score，F1）评分。相关评价指标的计算公式为：

其中，FN、TP、FP和TN分别是假阴性（FalseNegative）、真阳性（Ture Positive）、假阳性（False Positive）和真阴性（Ture Negative）。

3 试验与结果

3.1 试验环境

本文所使用的操作系统为Windows11，算法开发工具为Jupyter Notebook，深度学习框架为Tensorflow2.3版本。硬件配置采用第12代Gen Intel（R）Core（TM）i7-12700H CPU 处理器，NVIDIA RTX3060 16G显卡。

3.2 数据集

本文以三维空间中的手写数字开展手势识别研究，手势数据为智能手机端MEMS三轴加速度传感器采集的加速度值。数据采集任务由55名年龄介于18～30岁的青年男女参与完成，其中男性34人，女性21人，采集数据的手机型号不限。数据采集人员通过手持移动智能手机，并在空间中书写阿拉伯数字，每人每个阿拉伯数字书写10遍，累计获得5 500条数据。三维手写数字的书写笔画的正视图，如图4所示，箭头方向代表书写数字时的手部运动方向。其中，数字“0”“1”和“8”允许两种书写笔迹，所有数字均一笔完成书写。

图4 手写数字的书写笔画正视图

将采集的5 500条数据进行人工标注，训练集为3 272条，用于模型训练。验证集数据578条，用于训练过程中调整模型的超参数和对模型的能力进行初步评估。测试集为1 650条，用于模型性能测试。

3.3 试验参数设置

在手势数据特征提取过程中，手势数据的特征维度为3维，分别对应MEMS加速度传感器X轴、Y轴和Z轴方向的加速度值，每43个加速度值为特征长度组成1个序列。

采用同一架构（如图3所示），构建X-D网络的两种模型进行试验。试验控制单一变量，网络参数及结构，如表1所示。网络的第1层、第3层、第5层、第7层、第9层和第11层为具有120个隐藏节点X层。第2层、第4层、第6层、第8层和第10层为Dropout层，第12层为AlphaDropout层，所有丢弃层都随机丢弃30% 的神经元及其对应的连接边，用来防止模型过拟合。第13层为 Batch Normalization，减少网络计算量使其学习率更稳定地进行梯度传播。第14层为全连接层，含有200个隐藏节点，激活函数为Relu。第15层为全连接层，含有100个隐藏节点，激活函数为Relu。第16层为分类层，含有10个隐藏节点，激活函数为softmax。网络的迭代周期设置为400，batch size设置为80。学习率设定使用指数衰减法，初始学习率设置为0.001，一阶和二阶矩估计的指数衰减率分别为0.9和0.99，模糊因子为1.0×10-8，优化器使用adam。

表1 X-D网络结构参数

3.4 试验结果与分析

通过测试集分别对LSTM-D和GRU-D两种网络模型进行测试，二者的整体准确率分别为81% 和85% ，精确率分别为81.6% 和85.2% ，召回率分别为81.5% 和86.3% ，F1分数分别为81.6% 和85.8% 。每个数字的测试结果如图5所示，测试结果用准确率、召回率、精准率及F1分数作为评价指标。

图5 两种模型的评价指标

由图5可以看出，GRU-D模型的准确率、召回率、精准率及F1分数四项指标均高于LSTM-D模型，且GRU-D模型各个数字的评价指标相较LSTM-D模型更平稳。由此可以得出，GRU-D网络比LSTM-D网络表现更佳。

图6为10×10的混淆矩阵，能够清晰地显示两种模型对手势识别的分类准确率。纵坐标为真实标签，横坐标为预测标签。图6中数值表示预测值被归为某一类的比例，位于对角线上的数值越大表示有越多的序列被正确归类。右侧的条状图用于度量混淆矩阵中方格的灰度值，方格中的值越大，方格的颜色越深。LSTM-D模型对数字“8”的识别率最低，仅为71% 。对数字“3”的识别率最高，达到93% 。GRU-D网络对数字“4”的识别率最低，仅为75% 。对数字“2”的识别率最高，达到了93% 。通过比较可以看出，GRU-D相较于LSTM-D整体分类能力更好。

图6 两种模型的混淆矩阵

在实际应用中模型的训练及运算效率非常重要，为验证模型的此两项性能，在训练周期为400的情况下，将两种模型的训练及预测测试集数据所用时长进行比较。每次保证运行条件相同，同时网络结构和参数设置相同，试验结果如表2所示。

表2 两种模型运算性能比较

由表2可看出，在所有条件相同的情况下，LSTM-D模型训练所消耗时长是GRU-D模型的1.68倍，LSTM-D模型测试时长是GRU-D模型的1.83倍。综上所述，GRU-D模型的训练和运算效率更高，更适合部署在嵌入式设备中，能够更快速、更准确地识别手势动作。

4 结论

本文提出了一种基于门控循环网络的模型结构，实现了基于MEMS加速度传感器的手势识别方法。通过比较LSTM-D和GRU-D两种网络模型在自建数据集上的表现可见，GRU-D网络在两种网络模型中表现更好。通过比较两种模型在较长训练周期下的表现，发现GRU-D抗过拟合性强、准确率高。比较两种网络的运算性能并结合GRU-D模型的训练情况，发现该网络模型不易出现梯度爆炸或梯度消失，具有良好的稳定性，能够快速准确地对手势进行分类，可适用于大规模数据库。因此，本文提出的网络模型结构可为基于MEMS惯性传感器的手势识别提供新的方法。