基于大脑响应特征的视频情感分类算法

时间：2024-05-04

吉祥仝小敏戴永恒

摘要：视频情感识别是计算机视觉的研究热点，由于认识到人类本身才是情感产生的源头，近来，利用人类自身的大脑响应等生理特征对视频所包含的情感进行识别，即隐性情感识别成为研究重点。然而，目前利用脑电图信号对音乐视频愉悦度的识别率仍不能令人满意，原因在于未能从大量的脑电图数据中获取到有效的分类特征。为了进一步提高识别准确率，在DEAP数据库中，不采用传统的脑电图时域和频域特征，而是利用数据标准化以及特征选择方法从脑电图时间序列信号中直接提取有效特征，从而提取到脑电图信号中具有较高分类能力的特征，并将得到的脑电图特征用于音乐视频分类实验中，结果表明，相对于传统方法，可以大大提高脑电图信号对音乐视频愉悦度识别率。

关键词：视频情感分类;脑电图特征;视频愉悦度

中图分类号：TP391

文献标识码：A

0 引言

视频情感识别是为了识别视频中包含的积极、消极等情感，按照不同的情感类型将视频进行分类，视频情感识别在视频推荐、视频分类、广告设计等领域有重要的研究价值，人类作为情感产生的本源，研究者期望利用被试（即参与实验的志愿者）观看视频时自身的大脑响应等生理特征对视频的情感进行分类，该研究方向称为视频的隐性情感标注[1]，近来成为研究的热点，情感识别涉及情感类别定义、大脑响应等生理特征采集实验设计、数据采集、处理、特征提取、视频分类等内容，属于新兴的交叉学科。作为视频情感识别的一个指标[213]，视频愉悦度被用来评价视频的积极和消极程度，视频愉悦度识别算法研究近年来受到研究者的关注，例如，文献[4]采集了32个被试观看40个音乐视频时的脑电图信号[5]，为后续研究者提供了数据库DEAP，对视频愉悦度进行了初步的探索，文献[6J对DEAP数据库中的脑电图信号分别提取了时域特征和频域特征，分别利用这两类特征对音乐视频的愉悦度进行了分类，得到了较好的分类准确率，时域特征和频域特征分别为70.84%和69.82%。

然而，目前脑电图特征的分类准确率还有待提高，大量脑电图时间序列中蕴含着潜在的分类信息，这些信息需要利用合理的數据处理方式提取出来，从而大大提高现有的分类准确率。因此，本文没有像文献[4][6]那样，提取脑电图信号的时域和频域特征，而是直接中大量的脑电图时间序列中提取特征，通过数据标准化和特征选择方法，得到了分类准确率更高的特征。

本文方法旨在直接从脑电图信号中提取更有效特征，首先，在DEAP数据库中，针对每个被试每个脑电图通道所对应的40个视频的数据按列标准化，使得脑电图数据范围一致，利于后续处理;其次，采用mRMR特征选择方法对每个被试的每个脑电图通道的时间序列数据直接进行特征选择，从而挖掘出时间序列中潜藏的具有较强情感分类能力的特征;最后，针对每个被试的每个脑电图通道，利用选择得到的特征对40个视频进行视频愉悦度分类，得到40个视频的愉悦度分类准确率，将每个脑电图通道的分类准确率进行平均作为该被试对40个视频的最后分类准确率。实验结果表明，相对于传统的提取脑电图信号的时域和频域特征，直接从脑电图时间序列中提取特征可以挖掘出更有效的分类特征，从而大大提高音乐视频愉悦度的分类准确率。

1 DEAP数据库

DEAP数据库中[4]，32位被试分别观看了40段音乐电视视频，其中包括16位男士，16位女士，这些被试的健康水平都符合测试的要求，没有精神病史及脑神经损伤，测试前具备良好的精神状态，听力和视力均正常。实验时每个被试都被告知了实验注意事项，实验过程保持环境安静和不被打扰，确保被试可以注意力集中的进行实验。每段音乐电视的时长为60秒，这40段音乐视频通过情感标注和评估网站获取。在被试观看音乐电视的同时，采集被试的32通道脑电图信号，采用的是符合国际标准的32导电极脑电图，最后得到每个被试的40段音乐视频的生理信号，信号组成为40x32x8064，表示每个被试的40段音乐视频x32个生理信号采集通道x8064长度的采集信号。8064表示每个采集通道在60秒时长内的响应信号向量，采集实验如图1所示。

每个被试在观看每个视频的时候对所观看的视频进行愉悦度标注，从而得到每个被试对每个视频的愉悦度标注结果，标注时愉悦度等级为1到9，级别越低说明视频越消极，级别越高说明视频越积极，被试根据视频内容进行评级，最后得到每个被试对40个视频的愉悦度标注结果。这些标注结果被分为两个类别，一类是小于等于5的被定为愉悦度低的类别，视频标签被置为-1，第二类是大于5的被定为愉悦度高的类别，视频标签被置为1。本文将对视频愉悦度进行二分类研究，提高脑电图信号在音乐视频愉悦度二分类问题中的准确率。

2 大脑特征选择

特征选择是为了从数据中选取能够有效区分不同愉悦度视频的特征，但是目前的数据处理方法得到的脑电图特征分类准确率还有待提高，原因在于现有脑电图时域和频域信号的分类能力有限，数据中隐藏的辨识特征没有得到的挖据，有效特征产生了丢失，其实，脑电图时间序列中包含人类识别视频情感的特征，蕴藏着丰富的情感分类特征，因此，相对于传统的时域和频域特征，本文直接对脑电图信号进行预处理和特征提取，避免有效分类特征的丢失，从而挖掘出脑电图中包含的更有效的情感分类特征。

对于每个被试的每个脑电图采集通道，对其观看40视频的脑电图初始信号Data进行标准化，将数据范围调整一致，便于后续特征选择方法进行处理。其中Data= 40×8064，40表示每个被试观看的40个音乐视频，8064为1分钟内每个通道采集的数据长度，对Data按列进行数据标准化处理，公式如下：

其中，j表示Data的第j列数据，μ（Data（j））表示Data第j列数据的平均值，δ（Data（j））表示Data第j列数据的标准差。

对于单个被试的每个脑电图通道数据，我们分别利用mRMR特征选择方法进行特征选择，选择出每个通道最有区分能力的特征。mRMR特征算法目的是为了选取与分类最相关的特征，同时特征之间的冗余度最小，符合脑电图信号特征提取的需求，mRMR定义了如下两个函数实现最大相关和最小冗余[7][8][9]：

3 音樂视频愉悦度分类

对每个被试的每个脑电图通道，利用mRMR特征选择算法对每个通道的脑电图信号进行特征选择，然后将每个通道提取的脑电图特征用于该被试的40个视频的愉悦度分类，得到每个被试每个脑电图通道数据对40个视频的愉悦度分类准确率，最后计算每个被试40个通道的平均分类准确率作为该被试对40个视频的分类准确率。

和文献[6]中一样，实验中我们采用4折交叉验证，即将40个视频的脑电图数据分为4份，每次采用3份作为训练集，剩余l份作为测试集，采用SVM[10]作为分类器，重复4次，保证每份数据都被测试过，将4次测试结果进行平均，得到该被试的某个通道对40个视频的分类准确率。4本文算法

5 实验结果

本文实验数据共有32个被试（Sl至S32表示1到32个参加脑电图测试实验的志愿者）的脑电图信号，每个被试观看40个音乐视频，脑电图采集通道个数为32，每个被试观看每个视频时产生32×8064数据，32表示每个被试拥有32个脑电图采集通道，8064为1分钟内每个通道采集的数据长度，针对每个被试观看40个视频时采集的每个通道的脑电图信号，按列进行数据标准化，然后利用mRMR算法对标准化后的数据进行特征选择，得到每个被试每个通道针对40个视频的脑电图特征，利用每个通道的脑电图特征对40个视频进行分类，然后计算32个通道的平均分类准确率，作为该被试对40个音乐视频的分类准确率。实验结果如表1所示。其中，Sl到S32表示第1个被试到第32个被试。

传统方法对DEAP数据库中的脑电图信号，提取脑电图信号的6种时域特征（均值、标准差、原始信号的一阶、二阶差分平均绝对值、标准化信号的一阶、二阶差分平均绝对值），频域特征（对脑电图信号进行快速傅里叶变换后，得到五个频带的傅里叶变换，对于每个频带，以每一个脑电信号上的平均能量作为特征）。

传统方法中时域和频域特征在32个被试中的分类准确率如表1所示，采用时域特征时32名被试的平均分类准确率达到了70.84%，被试最高分类准确率为82.5%，采用频域特征的平均分类准确率为69.82%，被试最高分类准确率为85%。相对于传统方法，本文算法的32个被试平均分类准确率为86.2%，比传统的时域特征提高了15.36%，比传统的频域特征提高了16.38%，本文方法被试最高分类准确率为91.9%，比传统的时域特征被试最高分类准确率提高了9.4%，比传统的频域特征被试最高分类准确率提高了6.9%，由此可见，本文算法实验结果远高于传统算法的准确率，可知，有效的数据处理方法可以充分获取数据中的识别能力强的特征，从而大幅提高识别准确率。

6 结语

使计算机具有人类的情感识别能力一直人工智能领域的热点和难点，近来，很多研究者探索将人类观看视频时大脑的响应用于训练计算机对视频情感的识别，为了提高基于脑电图信号对视频情感的识别能力，提出了一个基于脑电图的音乐视频愉悦度识别算法，相对于传统提取脑电图中的频域和时域特征，直接从脑电图时间序列信号中提取特征，采用数据标准化和mRMR特征选择方法，挖掘到了更具分辨能力的特征，从而得到了更高的音乐视频愉悦度分类准确率。由此可知，合理的数据处理方式能够挖掘数据中潜藏的信息，从而得到的更好的效果，从而为人类生理特征用于视频情感识别提供了有效的解决方法。

参考文献

[1]

PANTIC M，VINCIARELLI A.Implicit human-centered taggingESocial Sciencesl [J]. IEEE Signal Processing Magazine，IEEE， 2009， 26（6）：173-180.

[2] ARIFIN S，CHEUNG P Y K.A novel probahilistic approach t。modeling the pleasure-arousal-dominance content of the vide。based on "working memory" [C]. Intemational Conference onSemantic Computing，IEEE， 2007：147-154.

[3] HANJALIC A，XU L Q.Affective video content representationand modeling [J].IEEE Transactions on Multiruedia，IEEE，2005，7（1）：l43-154.

[4] KOELSTRA S，MUHL C，SOLEYMANI M，et a/.Deap：a databasefor emotion analysis; using physiological signals [J].IEEE Trans-actions on Aifective Computing，IEEE，2012，3（1）：18-31.

[5]

WANC S，ZHU Y，WU G，et al.Hyhrid video eruotional taggingusing users' EEG and video content [J]. Multimedia Tools andApplications， Springer， 2014， 72（2）：1257-1283.

[6]黄柠檬，基于脑电图的情绪识别[D].广州：华南理工大学，2016.

[7] PENC H，LONG F，DINC C.Feature Selection Based on Mutu-al Information： Criteria of Max-Depenclency， Max- Relevance，and Min-Redundancy [J]. IEEE Transactions on Pattem Analy-sis and Machine and Intelligence，2005，27（8）：1226-1238.

[8] FAN X B，LI X.Minirruzing Prohing Cost with mRMR FeatureSelection in Network Monitoring [J]. IEEE Comruunications Let-ters， 2017， PP（99）：1-1.

[9] 11 B Q，ZHENC L.L，FENC K Y，et at.Prediction of Linear B—Cell Epitopes with ruRMR Feature Selection and Analysis [J].Current Bioinformatics， 2016， 11（1）：22-31.

[10] VAN GESTEL T，SUYKENS J A K，LANCKRIET C，et al.Mul-ticlass LS -SVMs： moderated outputs and coding -decodingschemes EJl.Neural Processing Letters，Kluwer Academic Puh-lishers，2002，15（1）：45-58.