时间:2024-05-04
郑成杰, 肖国宝, 罗天健,3
1(福建师范大学 计算机与网络空间安全学院, 福州 350117)
2(闽江学院 计算机与控制工程学院, 福州 350108)
3(福建师范大学 数字福建环境监测物联网实验室, 福州 350117)
脑机接口(brain computer interface, BCI)技术是一种建立在大脑和外部设备之间、且不依赖于外围神经系统与肌肉组织的新型人机交互方式[1]. BCI 技术可以实现大脑与外部电子设备的直接通信与控制, 主要涉及认知神经科学、信号处理和模式识别等多学科交叉.常见的BCI 技术包括无创BCI[2]和有创BCI, 其中无创BCI 可应用于常人, 不用面对伦理道德问题. 脑电信号是常用的无创BCI 技术手段之一, 基于脑电信号(electroencephalogram, EEG)的BCI 主要包含P300[3],稳态视觉电位[4]和运动想象[5]3 个类别.
运动想象(motor imagery, MI)是指人在进行运动想象(如想象左手、右手、舌、双脚的运动)时所产生的大脑运动感知节律变化, 主要由mu 节律和beta 节律组成[6]. 如人在进行单侧肢体的想象运动时, 大脑皮层同侧感觉区中的mu 和beta 节律幅值会增加, 发生事件相关同步(event-related synchronization, ERS)现象; 同时, 大脑皮层对侧运动感觉区中的mu 和beta 节律幅值会减少, 发生事件相关去同步(event-related desynchronization, ERD)现象[7]. 基于EEG 的运动想象脑机接口(motor imagery brain computer interface, MIBCI)系统可以对这些不同的ERD/ERS 模式进行分类,其目的在于准确的辨认出受试者的肢体运动意图[8]. 但由于MI-BCI 过程中采集到的EEG 信号信噪比低、空间分辨率低、非线性、非平稳性和随机性强等特点,导致现有的脑电识别技术对EEG 信号的解码正确率较低.
近年来, 深度学习方法在图像识别[9]、语音识别[10]等领域体现出其巨大的优势. 目前, 众多研究者已经将深度神经网络(deep neural network, DNN)应用到MI-BCI过程中 EEG 信号的模式识别中. 胡章芳等人[11]提出了一种短时傅里叶变换(short-time Fourier transform,STFT)和卷积神经网络(convolutional neural network,ConvNet)相结合的方法进行MI-BCI 过程中EEG 信号的识别分类, 该方法在BCI 竞赛数据集上获得了86.5%的平均分类正确率, 优于其他传统识别分类方法. Tabar等人[12]结合卷积神经网络与堆叠自动编码器(stacked autoencoder, SAE)对MI-BCI 过程中EEG 信号进行模式识别研究, 该方法首先采用短时傅里叶变换进行EEG信号的时频域特征预提取, 接着通过SAE 对ConvNet提取到的特征进行最终分类. 该方法在2008 年BCI 竞赛数据集2b 上获得了不错的分类性能, Kappa 值达到0.547, 比竞赛第一名的算法高出9%. 褚亚奇等人[13]提出一种基于时空特征学习卷积神经网络(TSCNN)的运动想象脑电解码方法, 该方法对公共数据集的平均解码精度达到80.09%, 显著提升了运动想象脑电解码的可靠性. Dai 等人[14]提出一种将卷积神经网络(CNN)结构与变分自编码器(VAE)相结合的MI-BCI 过程中EEG 信号分类框架, 该框架平均Kappa 值为0.564, 优于文献中最好的BCI 竞赛IV 数据集2b 的分类方法,提高了3%的识别准确率. Dai 等人[15]提出了一种混合尺度CNN 架构和数据增强方法(HS-CNN)用于脑电运动图像分类, 该方法在两个常用数据集上的平均分类准确率分别达到91.57%和87.6%, 优于几种最新的脑电运动图像分类方法.
在采用深度神经网络进行MI-BCI 过程中EEG 信号的模式识别中, 传统的训练方法是使用trial-wise 方法: 即将整个试验(trial) 信号作为输入样本, 以每个trial 的标签作为目标的训练策略. 但传统的trial-wise策略具有两大不足之处: 一是样本量太少, 不适合用于深度神经网络; 二是单个trial 的时间域过长, 特征维度太高, 导致分类效果不好. 为此, Schirrmeister 等人[16]设计了一种cropped 训练策略, 该策略通过滑动时间窗口(sliding time windows)对每个trial 进行裁剪, 既增加了训练样本量, 又避免了数据特征维度太高对结果的影响. 但是由于单纯的cropped 训练策略未考虑到EEG 信号具有时变性, 单纯的cropped 训练策略无法提取和学习到各个切分后crops 之间的关联性特征, 导致效果不佳. Schirrmeister 等人[16]设计的cropped 训练策略采用的是非重叠时间的cropped 切分方式, 即各个crops 之间没有重叠部分, 并且原文中并未进行trialwise 和cropped 的方式对比. 对此, 本文提出一种新型的重叠时间切片的训练策略, 并且详细对比了几种划分方式的结果. 重叠时间切片的训练策略采用带有重叠时间的滑动时间窗口对原始输入进行切分, 并在计算最后的分类标签时, 采用多数投票制确定样本的预测标签. 带有重叠的时间滑动窗口可保证切分后的样本之间保留其重叠部分的信息, 可通过神经网络提取和学习到切分后样本之间的关联性特征. 除此之外, 保留样本间的重叠信息可以使可学习到的特征更加丰富,可以更加适应较深层的网络.
本文的其余部分结构如下: 第2 节介绍基于深度神经网络模型的运动想象EEG 模式识别中常见的5 种模型. 第3 节首先介绍用于运动想象EEG 信号的trial-wise 和cropped 训练策略, 以及本文提出的重叠时间切片的训练策略. 第4 节为实验的结果与分析, 包括实验框架、3 种开源MI 实验数据集, 以及各种策略在各种模型的对比结果.
本文的主要贡献:
(1)提出了一种改进的重叠时间切片的训练策略,该训练策略可有效弥补一般训练策略带来的训练样本不足、特征维度太高和未能解决EEG 信号具有时变性的缺陷, 有效提升了EEG 信号的分类准确率.
(2)在3 种不同公共数据集上对比了3 种不同训练策略的性能和效率. 本文提出的重叠时间切片训练策略对公共数据集的分类准确率相比于先前两种训练策略有较显著的提升.
Deep ConvNet 架构的灵感来自于Krizhevsky 等人[17]提出的且在计算机视觉领域取得成功的一种架构. 该架构的出发点是想要找到一个能够提取广泛特征并且不限于特定特征类型的神经网络模型[18]. 设计这种通用体系的目的是揭露这种通用的ConvNet 是否可以仅靠少量的专业知识就可以取得具有竞争力的准确率.
Deep ConvNet 具有4 个卷积最大池化块(convolution-max-pooling blocks), 其中第1 个特殊的块用于处理输入的EEG 信号, 然后是3 个标准的卷积最大池化块和一个Softmax 分类层. Deep ConvNet 的体系结构如图1.
图1 Deep ConvNet 体系结构
Deep ConvNet 的一些设计策略:
(1)为了更好的处理大量输入通道, 第1 个卷积块采取分步卷积, 分为两层: 在第1 层中, 每个滤波器随时间进行卷积. 在第2 层中, 每个滤波器对先前进行时间卷积后的电极对执行权重的空间滤波.
(2)使用指数线性单元(exponential linear units,ELU)[19]作为激活函数. 公式为:
(3)在每个卷积层的输出使用批标准化和归一化.对每一批训练样本, 将网络的中间输出标准化为零均值和单位方差, 这可以使在训练过程中的层间的输入保持近似的正态分布, 有助于优化.
(4)在训练更新中采用dropout. 除第一个卷积层外, 以0.5 的概率随机地将之后的卷积层的输入设置为零.
Shallow ConvNet 是一种比较浅的神经网络结构,其受到滤波器组共空间模式(filter bank common spatial patterns, FBCSP)的启发, 是专门为解码频带功率特征而量身定制的. 这里首先介绍FBCSP 解码试验标签的一些步骤:
(1) 带通滤波: 应用不同的带通滤波器将原始EEG 信号分离为不同的频带.
(2)划分时间: 将连续的EEG 信号分为3 部分.
(3) CSP 特征计算: 在每个频带上, 将CSP 算法应用于提取空间滤波器. CSP 的目的是提取空间滤波器,以通过空间滤波后的试验信号的功率来区分试验.
(4)空间滤波: 将步骤(3)中计算出的空间滤波器应用于EEG 信号.
(5)特征构造: 特征向量由滤波后的信号构成, 具体来说, 特征向量是试验信号的每个频带使用不同空间滤波器空间滤波后的对数方差.
(6)分类: 基于特征向量训练一个分类器以预测每个试验标签.
Shallow ConvNet 的前两层执行时间卷积和空间滤波. 这类似于FBCSP 中的带通滤波和CSP 空间滤波步骤. 与Deep ConvNet 相比, Shallow ConvNet 的时间卷积具有更大的卷积核(25 vs. 10), 从而允许在该层进行更大范围的转换. 在Shallow ConvNet 的时间卷积和空间滤波后, 使用了平方非线性函数(square)、均值池化层和对数激活函数(log), 这些步骤组合在一起类似于FBCSP 中的试验的对数方差计算. 与FBCSP 相比,Shallow ConvNet 将所有计算步骤嵌入到单个网络中,因此可以共同优化所有步骤. Shallow ConvNet 的体系结构如图2 所示.
图2 Shallow ConvNet 体系结构
Hybrid ConvNet 是一种融合Deep ConvNet 和Shallow ConvNet 的混合ConvNet 模型. Hybrid ConvNet 希望从Shallow ConvNet 中提取到更具体特征, 以及从Deep ConvNet 中提取到更通用的特征. Hybrid ConvNet 用Deep ConvNet 和Shallow ConvNet 的60 个和40 个滤波器ELU 层替换了两个ConvNet 的4 个滤波器Softmax分类层. 将生成的100 个特征图连接起来, 并用作新的Softmax 分类层的输入. Hybrid ConvNet 不使用任何Deep 或Shallow ConvNet 预先训练好的参数, 而是对整个Hybrid ConvNet 进行重新训练.
EEGNet 是由Lawhern 等人[20]提出的基于CNN的模型, 是一种紧凑的脑电分析卷积神经网络, 专为常规EEG 信号识别任务而设计. EEGNet 可以应用于多种不同的BCI 范式, 不但可采用非常有限的数据进行训练, 而且可以产生神经生理学上可解释的特征.
EEGNet 保留了Shallow ConvNet 中的时间和空间卷积层. EEGNet 引入了深度卷积和可分离卷积, 来代替Shallow ConvNet 中的简单卷积, 以减少训练参数的数量. EEGNet 还使用了ELU 激活函数代替Shallow ConvNet 的平方激活函数. EEGNet 的总体结构如图3所示, 对于一个22×1125 的输入样本, 在Conv2D 层使用8 个大小为(1, 64)的卷积核, 使用线性激活函数, 输出大小为(8, 22, 1 125), 在DepthwiseConv2D 层使用16 个大小为(22, 1)的卷积核, 使用ELU 激活函数, 输出大小为(16, 1, 1 125), 接着是一个平均池化层Average-Pool2D, 卷积核为(1, 4), 输出大小为(16, 1, 281), 在SeparableConv2D 层, 使用16 个大小为(1, 16)的卷积核, 使用ELU 激活函数, 输出大小为(16, 1, 281), 接着一个AveragePool2D 层, 卷积核为(1, 4), 输出大小为(16, 1, 35), 然后展平成大小为560 的一维数组, 最后一个全连接层有2 240 卷积核, 使用Softmax 激活函数,输出大小为4 的一维数组.
残差网络(residual network, ResNet)是由He 等人[21]提出的一种卷积神经网络结构, 获得了2015 年Image-Net 大规模视觉识别竞赛的第一名. ResNet 通常具有大量的层数, 将ResNet 应用于EEG 解码旨在研究这种具有更多层数的网络是否也能在EEG 解码中获得良好的性能. 在ResNet 的一个残差块结构中, 记输入为x, 其期望学习到的潜在映射记为H(x), 学习到的残差为F(x)=H(x)-x. 当残差为F(x)=0时, 此时残差块可以实现恒等映射. 残差块的设计如图4.
图4 残差块
EEGResNet 模型在第1 块仍然是先进行时间卷积和空间滤波, 接着是14 个残差块, 平均池化和最后的Softmax 分类层. EEGResNet 的体系结构如表1.
表1 EEGResNet 体系结构
通常, 为了训练一个ConvNet 模型, 需要对Conv-Net 模型中所有参数(包括所有权重和偏置)进行联合训练. 在有监督分类问题中, 构建ConvNet 模型的目的是计算从输入数据到其对应的真实类别标签的一个函数:
Cropped 策略的训练使用裁剪方法, 即在原始输入试验中使用滑动窗口, 使输入深度神经网络模型中的训练样本比trail-wise 策略更多, 更适合于深度神经网络模型的训练. 对于原始输入试验样本Xi∈RE,T, 采用T′作为裁剪长度, 通过裁剪可得到一个裁剪样本集合(crops):
运动想象属于长时间、持续的过程, 根据经典运动想象刺激范式, 在整个4 s 的信号采集过程中, 受试者都将持续保持运动想象. 虽然反映运动想象数据可能集中在部分采样区间中, 但由于不同受试者对于运动想象的反应时间、持续时间不同, 这样的区间却因为个体差异性而各不相同. 因此, 无法使用统一的方式从不同被试者的运动想象集中区间中提取有效特征.实际上, 由于卷积神经网络的特性, 误差反向传播将会对不同区间的权重进行调整, 随着训练的进行那些蕴含运动想象特征的权重越来越高, 而不蕴含运动想象特征的权重将越来越低. 因此, 本文选择采用重叠切片的方式, 让蕴含和不蕴含运动想象特征的区间进行组合, 保证蕴含运动想象区间的部分以更多样性的组合形式输入至卷积神经网络中, 从而保证了采用卷积神经网络进行运动想象分类时的鲁棒性.
图5 重叠时间切片切分策略
在预测样本标签时, 采用多数投票制, 即对于来自同一个原始试验的切片, 统计这些切片的预测值, 将这些切片中出现最多次数的预测标签作为这个样本本次预测的预测标签. 该策略的其余超参数与trial-wise 策略的超参数保持一致.
本文实验选用2008 年BCI Competition IV Dataset 1、2a 和2b 三个公开数据集.
Dataset 1 数据集包含来自7 位健康受试者执行运动想象的EEG 数据. 标签类型为2 种, 其中类别1 表示受试者在执行左、右手或者脚的运动想象, 类别0 表示受试者无控制意图. 该数据集测量了每个受试者的59 个在感觉运动区域上最密集的通道信号. 信号以1 000 Hz 为采样频率, 并在0.05-200 Hz 之间进行带通滤波. Dataset 2a 数据集包含来自9 个受试者执行运动想象的EEG 数据. 运动想象类型为4 种, 包括左手、右手、双脚和舌头. 信号以250 Hz 为采样频率, 并在0.5-100 Hz 之间进行带通滤波. 放大器的灵敏度设置为100 μV, 并使用了50 Hz 陷波滤波器抑制线路噪声.
Dataset 2a 数据集的EEG 信号采集过程如图6 所示. 每个受试者坐在计算机屏幕前的舒适扶手椅上. 在实验开始时, 屏幕上出现十字注视叉, 并发出简短的提示音, 2 s 后, 屏幕上出现持续1.25 s 的指向左、右、上或下(分别对应于4 种运动想象类别)的箭头, 随后受试者执行箭头对应的运动想象并持续到实验开始后的第6 s. 训练数据集包含每个受试者的288 次试验样本,测试数据集同样包含每个受试者的288 次试验样本.
图6 Dataset 2a 数据采集实验
Dataset 2b 数据集包含来自9 个右利手的受试者执行运动想象的EEG 数据. 运动想象类型为2 种, 包括左手和右手. 信号以250 Hz 为采样频率, 并在0.5-100 Hz之间进行带通滤波. 放大器的灵敏度设置为100 μV, 并使用了50 Hz 陷波滤波器以抑制线路噪声. 每位受试者的脑电数据集都包括5 个 Session, 前2 个Session为无视觉反馈的脑电想象数据, 后3 个Session 为包含视觉反馈的脑电想象数据.
Dataset 2b 数据集的采集工作分为无视觉反馈和有视觉反馈实验. 无视觉反馈实验过程如图7 所示, 在实验开始时, 屏幕上出现十字注视叉, 并发出简短的提示音, 2 s 后, 屏幕上出现持续1.25 s 的指向左或右(分别对应于左手或右手运动)的箭头, 随后受试者执行箭头对应的运动想象并持续到实验开始后的第6 s.
图7 Dataset 2b 无视觉反馈数据采集实验
有视觉反馈实验过程如图8 所示, 在实验开始时,屏幕上显示灰色的笑脸, 2 s 后发出简短的提示音, 3 s时屏幕上出现持续1.25 s 的指向左或右(分别对应于左手或右手运动)的箭头, 随后受试者执行箭头对应的运动想象将笑脸向左或向右移动, 如果移动方向正确,屏幕中的灰色笑脸就会变为笑脸, 反之, 变成哭脸.
图8 Dataset 2b 有视觉反馈数据采集实验
本文实验的硬件配置为CPU: Intel(R) Core(TM)i5-10210U 1.60 GHz, GPU: NVIDIA GeForce MX350.
本文采用开源的ConvNet 模型EEG 信号识别框架进行EEG 信号识别(https://github.com/braindecode/braindecode). 实验需安装Python 第三方库PyTorch. 数据预处理: 在读取原始数据后, 将数据在3-38 Hz 之间进行带通滤波, 然后进行数据切分, 以Dataset 2a 数据集为例, 切分的大小为22×1125, 形成训练和测试样本,最后将切分后的样本送入braindecode 框架中进行处理. 实验参数设置: trial-wise 和overlapped 训练策略的最大迭代次数设为1 600, cropped 训练策略的最大迭代次数设为800. 学习率为0.001, 使用early-stopping,停止条件为达到最大迭代次数或者验证集上的误分类率没有下降. 优化器使用torch.optim 中的Adam 优化器, 损失函数使用torch.nn.functional 中的nll_loss 函数. 实验结果的图使用echarts (一个基于 JavaScript 的开源可视化图表库)画出.
基于本文介绍的trial-wise、cropped 和设计的重叠时间切片(overlapped)策略, 将这3 种训练方法应用于本文介绍的5 种深度神经网络模型: Deep ConvNet、Shallow ConvNet、Hybrid ConvNet、EEGNet 和EEGResNet 上. 由于Dataset 1 数据集的单个trial 持续时间较短, 在Dataset 1 数据集上采用trial-wise、cropped和overlapped 三种策略训练2 种深度神经网络模型:Shallow ConvNet 和EEGNet, 得到所有受试者的测试集上的识别准确率如表2 所示. 其中, 实验的overlapped训练方法中的 α, β参数值分为设置为100 和20.
由表2 可以看出, 在Dataset 1 数据集上, overlapped训练策略在Shallow ConvNet 和EEGNet 上的分类准确率均高于cropped 训练策略的分类准确率, 分别提升了5.4%和6.9%. 在EEGNet 模型上的分类准确率高于trial-wise 训练策略的, 在Shallow ConvNet 模型上的分类准确率与trail-wise 的相差不大.
表2 Trial-wise、cropped 和overlapped (100, 20)方法在Dataset 1 数据集上的识别准确率比较(%)
对于Dataset 1 数据集, 实验将 α设置为100、150或200, β设置为20、30 或40, 共产生9 组参数组合.
9 组不同参数组合的overlapped 策略应用于2 种不同模型的识别准确率的提升百分比如图9 所示.
图9 在Dataset 1 上9 组参数组合的overlapped 策略的识别准确率提升百分比的比较
从图9 可以看出, overlapped 训练策略的9 种参数组合在Shallow ConvNet 和EEGNet 两种模型的识别准确率均有提升. Shallow ConvNet 在 α=200 ,β=20时, 识别准确率提升百分比最大, 达到了6.5%. EEGNet在 α =150 , β=30时, 识别准确率提升百分比最大, 达到了7.964%.
基于本文介绍的trial-wise、cropped 和设计的重叠时间切片(overlapped)策略, 将这3 种训练方法应用于本文介绍的5 种深度神经网络模型: Deep ConvNet、Shallow ConvNet、Hybrid ConvNet、EEGNet 和EEGResNet 上, 并计算出其在Dataset 2a 数据集所有受试者的测试集上的识别准确率如表3 所示. 其中, 实验的overlapped 训练方法中的 α , β参数值分为设置为500和100.
由表3 可以看出, 在Dataset 2a 数据集上, 对于Shallow ConvNet 和EEGNet 这两种浅层模型, overlapped训练策略与trial-wise 训练策略的分类准确率相差不大, 但都优于cropped 训练策略. 对于Deep ConvNet、Hybrid ConvNet 和EEGResNet 3 种模型, overlapped 训练策略的分类准确率均高于trial-wise 和cropped 训练策略的分类准确率.
表3 Trial-wise、cropped 和overlapped (500, 100)方法在Dataset 2a 数据集上的识别准确率比较(%)
本文还通过设置不同的 α 和 β参数, 以研究不同的α 和 β参数对overlapped 训练策略的性能影响. 实验将α设置为500、600 或800, β设置为100、150 或200,共产生9 组参数组合.
相比于cropped 策略, 9 组不同参数组合的overlapped 策略应用于5 种不同模型的识别准确率的提升百分比如图10 所示.
图10 在Dataset 2a 上9 组参数组合的overlapped 策略的识别准确率提升百分比的比较
从图10 可以看出, 除Hybrid ConvNet 和EEGResNet在 α =500 , β=200和 α =600 , β=200的参数设置之外,overlapped 的各组参数设置的识别准确率均较cropped的识别准确率有所提升. 由图10 也可看出, 随着 β值的增加, 即重叠的时间部分减少, overlapped 策略的识别准确率提升百分比也在降低. Shallow ConvNet 和EEGResNet 在 α=800 , β=100时, 识别准确率提升百分比最大, 分别达到了5.826%和2.65%. Deep Conv-Net 和EEGNet 在 α =600 , β=100时, 识别准确率提升百分比最大, 分别达到了23.461%和5.887%. 由此可见, 可根据应用的不同模型, 通过不断调整, 可得到最适合该模型的 α 和 β参数值, 进而得到较高的识别准确率.
同样, 在Dataset 2b 数据集上采用cropped 和overlapped 两种策略训练5 种深度神经网络模型, 得到所有受试者的测试集上的识别准确率如表4 所示. 其中, 实验的overlapped 训练方法中的 α, β参数值分为设置为500 和100.
由表4 可以看出, 在Dataset 2b 数据集上, trialwise 训练策略在Shallow ConvNet、Deep ConvNet 和EEGNet 3 种模型上取得更好的分类准确率, cropped训练策略在EEGResNet 模型上取得更好的分类准确率, overlapped 训练策略在Hybrid ConvNet 模型上取得更好的分类准确率.
从表2、表3 和表4 中的实验结果可以看出, 虽然overlapped 方法不能同时比trial-wise 和cropped 方法显著提升识别准确率. 但是, 采用student-test 方式进行假设检验, 在Dataset 2a 和Dataset 2b 数据集上的5 种不同模型, oiverlapped 方法总能比trial-wise 或cropped 方法显著提升识别准确率(p<0.05 或p<0.01).实际上, 针对EEG 信号的预处理过程, 在不同数据集和不同卷积神经网络模型下, trial-wsie 方法由于样本量较少, 更适合于简单模型或数据集(如Dataset 1 数据集和Shallow ConvNet 模型). Cropped 方法能够弥补样本不足和特征维度较高的缺点, 因此更适合复杂的模型或数据量较大的情况(如Dataset 2a/2b 数据集和Hybrid ConvNet/EEGResNet 模型). 不同于二者都有适应自己情况的数据集和模型, 通过实验结果可以看出,overlapped 方法能够同时满足数据量较小/较大、模型较简单/复杂的情况, 其对于运动想象识别率的鲁棒性较高. 在实际基于运动想象的脑机接口应用中, 采用overlapped 方法能够极大的降低对于数据集和模型的依赖性, 保证运动想象识别准确率的稳定性.
表4 Trial-wise、cropped 和overlapped (500, 100)方法在Dataset 2b 数据集上的识别准确率比较(%)
在Dataset 2b 数据集上, 同样将 α设置为500、600 或800, β设置为100、150 或200, 共产生9 组参数组合, 相比于cropped 策略, 9 组不同参数组合的overlapped 策略应用于5 种不同模型的识别准确率的提升百分比如图11 所示.
图11 在Dataset 2b 上9 组参数组合的overlapped 策略的识别准确率提升百分比的比较
从图11 可以看出, overlapped 训练策略在Shallow ConvNet、Deep ConvNet 和EEGNet 3 种模型的识别准确率提升百分比较高. 随着 β值的增加, 即重叠的时间部分减少, overlapped 策略的识别准确率提升百分比也在降低. Shallow ConvNet、Deep ConvNet 和EEGNet 在 α =800 , β=100时, 识别准确率提升百分比最大, 分别达到了7.101%、21.965%和9.335%. Hybrid ConvNet 在α =600 , β=200时, 识别准确率提升百分比最大, 达到了1.423%. 对于EEGResNet, 9 种参数组合中, 仅有 α =800 , β=200时, overlapped 策略的识别准确率才有提升.
综合以上在3 个数据集上应用3 种不同训练策略的实验结果分析, 由于Dataset 1、2a 和2b 数据集中每个样本的电极数分别为64、22 和3, 在使用相同的采样率时, Dataset 2b 数据集的数据量要远小于Dataset 1 和2a 的, 因此, 对于Dataset 1 和2a 数据集, 在遇到简单模型(如Shallow ConvNet 模型)时, trial-wise 和overlapped 训练策略的识别性能相差不大, 当遇到更复杂的模型时, overlapped 训练策略可提供的海量样本量的优势得以体现出来. 对于Dataset 2b 数据集, 其数据量本身不大, 所以在简单模型上应用trial-wise 训练策略的效果更好, 对于复杂模型, 由于数据量的限制,overlapped 训练策略较cropped 训练策略的优势不大.
实际上, 由于大数据时代的到来, 迁移学习形成的海量样本集, 促使我们使用更复杂的模型完成MI 的分类工作, 如Hybrid ConvNet 和EEGResNet, 此时采用overlapped 训练策略能够保证较高的鲁棒性, 并且避免trial-wise 训练策略带来的过拟合问题.
本文实验还记录了每个模型在应用不同训练策略时每次迭代所花费的时间, 以探究overlapped 策略在获得更好的分类性能的同时, 其时间复杂度与cropped策略的时间复杂度的对比情况.
以Dataset 2a 数据集的Subject 1 的数据为例, 5 种不同模型在应用cropped 策略和应用overlapped 的9 种参数组合(与第4.3 节中的参数组合相同)情况下,平均每轮训练迭代所花费的时间如表5 所示.
表5 Cropped 与overlapped 策略应用于5 种模型的平均每轮训练迭代所花费的时间对比 (s)
本文提出了一种新型的重叠时间切片的训练策略以改进深度神经网络在运动想象EEG 信号模式识别中的性能.
首先, 本文设计了重叠时间切片的训练策略并设计了全新的损失函数和预测标签方法. 其次, 在Competition IV Dataset 1、2a 和2b 数据集上分别建立使用trial-wise、cropped 和overlapped 策略的5 种深度神经网络模型, 其实验结果表明, overlapped 策略较cropped 策略拥有更好的识别性能. 对于使用的5 种模型, 在Dataset 1、2a 和2b 数据集上最高分类准确率分别达到91.3%、77.3%和86.4%. 最后, 通过调整overlapped 策略的 α 和 β值, 设计了9 组不同的参数组合做分类性能和时间复杂度的对比实验. 实验表明, 不同的α 和 β参数组合会影响最终的分类性能, 且分类性能的好坏并不与时间复杂度的高低呈某种特定的线性关系,可根据不同数据集, 通过不断调整 α 和 β来达到时间复杂度低且分类性能好的参数组合. 在实验中, 对于使用overlapped 策略的5 种模型, 在Dataset 1、2a 和2b 数据集上最高分类准确率分别达到了92.3%、77.8%和86.3%. 本文所做工作验证了重叠时间切片策略在MIBCI 中EEG 信号模式识别任务中的有效性, 可为构建MI-BCI 的应用提供方法和思路上的参考.
今后的工作要通过优化深度神经网络结构以提升训练效率, 并将重叠时间切片策略与其他优化策略相结合, 如随机选取重叠切片, 将不同组合的重叠切片输入到网络中进行训练, 进一步提升运动想象EEG 信号识别性能.
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!