多特征融合的抑郁倾向识别方法

时间：2024-05-04

周莹王红任衍具胡晓红

摘要：近些年，抑郁倾向趋于年轻化和常态化，虽然相关研究已取得一定成果，但仍缺乏更为客观、准确的抑郁倾向识别方法，也缺乏从不同角度研究抑郁倾向，因此，提出将心理健康自查表和眼动追踪结合作为识别抑郁倾向的方法，并且创新地从多角度对抑郁倾向进行研究，即将眼动特征、记忆力特征、认知风格特征以及网络行为特征多种类型特征融合。为了处理复杂的特征关系，提出扫描过程来处理复杂的特征关系，并将扫描过程与堆叠法结合提出抑郁倾向识别模型——扫描堆叠模型。为了全面客观评价扫描堆叠模型的性能，对扫描过程和堆叠法的独立贡献进行了实验。实验结果显示扫描过程独立贡献为0.03，堆叠法独立贡献为0.02，并且扫描堆叠模型与多种模型从参数R平方、均方误差、平均绝对误差进行比较，结果为扫描堆叠模型的预测效果较好。

关键词：眼动追踪;抑郁倾向;多特征融合;扫描堆叠模型

中图分类号： TP181

文献标志码：A

Abstract： In recent years， the tendency of depression tends to occur at a younger age and affects more people. Although research on the topic has achieved some results， it still lacks a more objective and accurate method for identifying depressive tendencies， and research on depressive tendencies from multiple perspectives is lacking. Therefore， the combination of mental health self-check table and eye-tracking was proposed as a method for identifying depressive tendencies and was studied from multiple perspectives. The innovative features of eye movement， memory， cognitive style， and network behaviors were incorporated. In order to address complex feature relationship and extract more useful information， a scanning process with combining a stacking method was proposed to form a proposed recognition model for depressive tendencies called scanning stacking model. To comprehensively and objectively evaluate the performance of scanning and stacking model， the independent contributions of both scanning process and stacking method were evaluated in the experiment. The experimental results show that the independent contribution of scanning process is 0.03， and the independent contribution of stacking method is 0.02. In addition， the scanning stacking model was compared with several models from parameter R-squared， Mean Square Error （MSE） and average absolute error， and the results show that the scanning stacking model has better prediction effect.

Key words： eye-tracking; depressive tendency; multiple feature fusion; scanning stacking model

0 引言

當今社会人们的压力越来越大，过大的压力容易使人产生抑郁倾向，严重影响人们的学习、工作和生活。目前我国抑郁倾向的现状呈现“三高三低”，即高发病率、高复发率、高自杀率，低知晓率、低就诊率、低治疗率。抑郁倾向的主要表现为长时间情绪低落、记忆力下降、注意力下降、食欲以及睡眠等发生变化，严重表现为轻生。由于多数人对抑郁倾向了解较少以及考虑个人隐私等原因，当产生抑郁倾向时，人们一般很少主动寻求专业帮助，当必须寻求帮助时，问题往往已经相当严重了。目前，抑郁倾向主要识别的方法为心理健康自查表结合心理专家问诊，但是这种方法很容易受到心理专家等主观因素的影响，缺乏客观性和科学性。由于抑郁倾向对自身和社会造成严重的影响，同时现有抑郁倾向的识别方法存在一定问题，因此亟需一种能够在保证个人隐私前提下客观、准确识别抑郁倾向的方法。

为了提高抑郁倾向识别方法的客观性和准确性，本文从多角度对抑郁倾向进行深入研究。随着眼动追踪技术的不断发展，越来越多的研究者将眼动追踪技术应用于抑郁倾向的研究。眼动追踪是指利用眼动设备记录眼球轨迹，从中提取眼动信息进而分析人的心理健康等。利用眼动追踪分析人的心理健康既能降低主观因素的影响，又能够真实、准确地反映个人的心理健康情况。随着抑郁倾向研究的不断深入，人们发现抑郁倾向与认知风格之间存在相关性，认知风格是指个体在认知过程中所表现出来的习惯化的行为模式，因此将认知风格作为研究抑郁倾向角度之一。抑郁倾向主要表现之一为记忆力下降，将记忆力作为抑郁倾向研究的另一角度。随着互联网的普及，网络与人们的生活紧密结合，网络行为作为个人行为的重要部分，可以用来推测个人的心理健康等信息，因此可以从网络行为角度研究抑郁倾向。从多角度研究抑郁倾向，会存在复杂的数据关系问题，深度神经网络在处理数据中表现出强大的性能，因此可以借鉴深度神经网络处理数据的原理来处理复杂的数据关系。

抑郁倾向识别模型通常为单一机器学习模型，如支持向量机（Support Vector Machine， SVM）、BP神经网络（Back Propagation Neural Network， BPNN）等。分析SVM和BPNN发现两个模型互补，SVM优点之一是能够避免陷入局部极值，缺点为对缺失数据敏感等;BPNN的优点之一是对缺失数据不敏感，缺点为易陷入局部极值等。若将不同互补模型组合构建识别抑郁倾向的模型，有利于提高抑郁倾向识别方法的准确性和科学性。

本文从多角度对抑郁倾向进行研究，主要工作有以下四个方面：

1）本文将心理健康自查表和眼动追踪结合，提高抑郁倾向识别方法的客观性和准确性;

2）本文从多方面研究抑郁倾向，创新地将眼动特征、认知风格特征、记忆力特征以及网络行为特征融合，进一步提高抑郁倾向识别方法客观性和准确性;

3）为了处理复杂的特征关系，从中提取有用信息，本文提出用扫描过程处理特征关系;

4）本文基于堆叠法将多种模型组合，并将扫描过程与堆叠法结合提出了扫描堆叠模型。扫描堆叠模型为集成模型，性能强大。为了客观、全面评价扫描堆叠模型的性能，本文既分析扫描过程和堆叠法独立贡献，又将扫描堆叠模型与多种分类模型进行了分析比较。

1 相关工作

目前，识别抑郁倾向的主要方法为心理专家问诊结合心理健康自查表，常用的心理健康自查表有《伯恩斯抑郁状况自查表》[1]、《状况自评表SCL 90》[2]、《SDS抑郁自评量表》[3]等。近年来，越来越多的研究者将眼动追踪技术应用于抑郁倾向的研究，Joorman等[4]研究发现抑郁倾向个体对消极刺激表现出明显的注意偏向，注意偏向是指人对特定刺激和选择性注意，而正常个体对积极刺激表现出明显的注意偏向;Heller等[5]发现，抑郁倾向的个体在眼动实验中会花更多的时间浏览消极情绪的图片;Fritzsch等[6]利用情绪面孔的Stroop范式对抑郁倾向个体和正常个体进行对比发现，抑郁倾向个体易受到悲伤表情的干扰，并且反应时间明显较长。为了提高抑郁倾向识别方法的客观性和准确性，本文将心理健康自查表与眼动追踪相结合。

为了全面研究抑郁倾向，研究者从不同角度对抑郁倾向进行研究。任力杰等[7]研究发现抑郁傾向个体的白质区域神经纤维异常，即抑郁倾向损害记忆神经，造成记忆力下降;Kaviani等[8]研究发现抑郁倾向的个体记忆力下降，反应速度变慢。部分研究者从认知风格角度研究抑郁倾向，Major等[9]在研究中提出不同认知风格的人面对同一压力会采取不同的应对方式;Eysenck[10]在研究中证实，抑郁倾向与认知风格之间存在相关性。部分研究者从网络行为角度研究抑郁倾向，Brunswik[11]提出了“透镜模型”理论，即通过个人的行为可以推测个人的心理健康等信息;Li等[12]使用社交平台微博来预测用户的个性;胡志海[13]发现网络行为与抑郁倾向之间显著相关;Moreno等[14]在研究中提出抑郁倾向个体更倾向在社交平台发布消极照片;Katikalapudi等[15]发现抑郁倾向的个体社交活动减少，社交圈缩小。

随着数据趋于高维化和多样化，数据的处理过程越来越重要，深度神经网络在处理特征等方面性能强大[16]，是处理复杂数据强有力的工具。神经网络最初由Pitts[17]提出，其模拟人脑的运作方式对复杂信息进行存储与处理，可以并行分布处理数据，从数据中挖掘更多有用信息;Zhou等[18]提出包发生器，其处理特征过程与深度神经网络类似。K近邻（K-Nearest Neighbors， KNN）[19]、SVM[20]等模型常用于抑郁倾向的识别，不同模型均有各自的优点和缺点，Granger等[21]在1992年提出组合模型的方法，即通过组合多种互补模型，提升整体模型的性能;常用的组合模型的方法有堆叠法（Stacking）[22]、套袋法（Bagging）[23]等;West等[24]研究发现，组合模型要显著优于组合模型中的最佳的模型。

以上研究者虽然从不同角度研究抑郁倾向，但没有将不同角度结合。本文为了提高抑郁倾向识别方法的客观性和准确性，将心理健康自查表和眼动追踪结合，将不同角度结合研究抑郁倾向;同时，在处理特征关系方面，受到深度神经网络的启发，提出用扫描过程处理特征关系，并将扫描过程和堆叠法结合构建抑郁倾向识别模型。抑郁倾向识别模型可以帮助心理专家分析判断，从而降低误诊的概率，具有重要的现实意义。

2 实验设计

为了保证实验设计的科学性，本实验在专业的心理学老师指导下完成。本章从实验对象、数据采集两方面描述实验设计。数据采集由调查问卷、眼动实验、网络行为三部分组成。

2.1 实验对象

本实验共招募100名在社交平台腾讯QQ上活跃的不同学校不同专业的大学生，年龄为20.05±1.08岁，男女比例为1∶1。所有测试者裸眼视力或矫正视力均正常，无眼部疾病，并在实验前都签署了书面知情同意书，实验结束给予一定的奖励。为了保证数据均衡，本文对测试者进行了筛选，测试者需要回答是否有抑郁倾向史等问题，其中41位测试者有抑郁倾向史。

2.2 数据采集

数据采集由调查问卷、眼动实验、网络行为三部分组成。调查问卷为伯恩斯抑郁状况自查表（Burns Depression Checklist， BDC）、修订的韦氏记忆量表、镶嵌图形测验;眼动实验从实验素材、实验设备、实验过程四方面进行描述;网络行为主要从社交互动性和公开发布的图片两方面研究。

2.2.1 调查问卷

1）伯恩斯抑郁状况自查表。

伯恩斯抑郁状况自查表从个人感情、团体关系、生理症状、自杀倾向四个维度对情绪进行测量。伯恩斯抑郁状况自查表使用之前需要检验信度，信度即同一表对同一测试者重复测量所得结果一致的程度，克隆巴赫系数法是目前研究中最常用的检验信度的方法，并且系数愈大，信度愈高。在基础研究中，克隆巴赫系数至少要达到0.8，计算公式如下所示：

其中：a为克隆巴赫系数，n为测试者的人数，k为表中题目数，Sin2为每题各测试者得分的方差，Stk2这两个变量对应上面的哪个变量名？请明确为所有测试者所得总分的方差。经过计算，克隆巴赫系数为0.93，说明伯恩斯抑郁状况自查表属于高信度。

伯恩斯抑郁状况自查表共25题，每题5个评分等级：0分表示完全没有;1分表示有一点;2分表示偶尔;3分表示经常;4分表示极其频繁，每位测试者根据过去两周以上的感受进行评分。通过伯恩斯抑郁状况自查表测量，将测试者分为正常组和抑郁倾向组两个组，L为组标签（即类标签），若总评分大于10则为抑郁倾向组（L=1），说明测试者近两周存在抑郁倾向，可能需要寻求专业帮助;若总评分小于等于10则为正常组（L=0），说明测试者近两周情绪正常。

2）修订的韦氏记忆量表（Revised Wechsler Memory Scale， RWMS）。

韦氏记忆量表从长时记忆、短时记忆、瞬时记忆多方面测验记忆力，龚耀先等[26]对韦氏记忆量表进行修订，增加了听觉、视觉、触觉等方面的内容。修订的韦氏记忆量表测验内容为：个人经历的记忆测验、时间空间的定向记忆测验、数字顺序的记忆测验、视觉再认、记图、视觉再生、联想学习、触摸测验、理解或逻辑记忆测验、顺背和倒背数字。

每位测试者记忆力（memory）记分方法：首先将每项测验的原始分按照式（4）换算成标准分（standard_score），然后将各分测验的标准分相加即为记忆力得分。测试者年龄为20.05±1.08，年龄相近，所以不考虑年龄因素的影响：

standard_score=10+3（x-）/SD（4）

其中，每项测验的均值为10，标准差为3，对于某项测验来说，x表示测试者所得原始分，表示所有测试者原始分的均值，SD表示所有测试者原始分的标准差。

3）镶嵌图形测验（Embedded Figure Test， EFT）。

镶嵌图形测验是一种认知方式测验，由美国心理学家Witkin等[27]设计，要求测试者在一系列复杂图形中找出指定的简单图形，如图1所示。Witkin等[27]经过研究发现，有些人很容易从复杂图形中找出指定的简单图形，而有些人很難从中找出指定的简单图形，他将前者称为场独立性（Field Independence）的人，后者称为场依存性（Field Dependence）的人。镶嵌图形测验共20题，每题记1分，认知风格公式为：

其中、sd分别表示均值和标准差。成年男性的、sd的值分别为9.86和4.45;成年女性的、sd值分别为9.69和4.89。若T值大于50，表示测试者的认知风格更倾向于场独立性;反之，若T值小于50，表示测试者的认知风格更倾向于场依存性。

2.2.2 眼动实验

眼动实验从实验素材、实验设备、实验过程方面进行描述。

1）实验素材。

眼动实验所用刺激材料来自The Japanese Female Facial Expression database（JAFFE），该数据库中的情绪面孔识别率高，图片大小、亮度、分辨率均相同，从该数据库中抽取开心、悲伤、平静情绪面孔图片各10张。

2）实验设备。

本实验采用SMI RED眼动仪（Version 2.4），采样频率为120Hz，由德国普升科技公司开发，安装的软件IViewX、Experiment Center和BeGaze用于记录和分析眼动轨迹。

3）实验过程。

眼动实验过程中，眼动仪实时追踪测试者的眼球运动情况，自动记录测试者的眼动数据。实验素材呈现于17寸的显示屏上，测试者与屏幕距离大约50cm，实验过程如下。

1）检测眼动水平，测试者双眼追踪屏幕上的小球运动轨迹，当轨迹均在规定范围内，则开始实验;2）测试者熟悉实验流程，此过程不记录眼动轨迹;3）测试者完成任务1，图2（a）为任务1实验素材图之一。浏览9张图，每张图由3种情绪面孔组成，3种情绪面孔分别为开心、悲伤、平静，并且3种情绪面孔以三角形分布。每张图自动播放10s，图之间空白1s;4）接下来测试者完成任务2，图2（b）为任务2实验素材图之一，实验过程和任务1相同，只有情绪面孔的分布方式不同，任务2的情绪面孔分布是以左右分布。

2.2.3 网络行为

本文与测试者签订保密协议，保证不会将数据以任何形式公布，他们向我们分享社交平台腾讯QQ数据。因为测试者是根据两周以上的感受填写了伯恩斯抑郁状况自查表，所以将两周作为研究网络行为的时间长度，QQ数据主要包括照片、动态以及动态评论等。

社交平台用于分享个人的社交生活，因此能从社交平台发布的照片中捕捉个人社交信息。研究表明，抑郁倾向的个人更倾向在社交平台发布一些消极照片，因此将照片所反映的情绪作为研究网络行为的内容之一，为了客观评价照片所反映的情绪，本文征集了20位志愿者对照片进行评估，志愿者未被告知照片来源等信息。志愿者只需对照片所反映的情感（emotion_photo）评分：1-3分表示消极情绪的照片，4-6分表示中性情绪的照片，7-9分表示积极情绪的照片，每张照片至少由三位志愿者进行评分，并将评分取均值。

社交互动性是衡量抑郁倾向的重要指标之一，分析QQ数据发现，动态数（dynamic_count）和动态评论数（comment_count）能够很好地衡量社交互动性，因此它们可以作为衡量社交活动性的指标;同时，本文使用人脸检测算法分析照片，并以照片中人脸数量（face_count）作为衡量社交活动性的另一个指标。为了保护测试者的信息，图3为人脸检测的示例图片。

3 数据处理分析

本章主要内容为情绪面孔分布定量分析、数据图分析、数据集描述及数据预处理四方面。

3.1 情绪面孔分布定量分析

在处理数据之前，对任务1和任务2的注意效果进行分析，即对情绪面孔分布进行定量分析，首先将任务1和任务2根据不同情绪面孔划分成兴趣区（Area Of Interest， AOI）。在眼动研究中，常用的注意效果统计指标为AOI注视点个数、注视时长等，注视点为眼睛持续注视一个视觉度之内的区域超过100ms。为了客观、全面地分析，本文选择评价指标时从注视点数和时长两方面考虑，选择AOI平均注视点数、AOI平均注视时长两个指标来衡量注意效果，如表1所示，表中n为测试者人数。

其中，n为测试者的人数。分析表1发现，任务1的AOI平均注视点数的值大于任务2，并且任务1和任务2的每张图播放时长相同，任务1的AOI平均注视时长的值大于任务2，综合两项指标说明测试者更专注于任务1，因此以下眼动数据分析均采用任务1得到的数据。

3.2 数据图分析

眼动分析软件BeGaze可生成可视化的数据图，如Scan Path、Heat、KPI等数据图。对可视化数据图进行初步分析，为后续分析奠定基础。图4（a）为任务1的Scan Path数据图，图4（b）为Heat数据图，图4（c）为KPI数据图，三种数据图的左图为抑郁倾向测试者示例图，右图为正常测试者示例图。

图4 任务1的Scan Path、Heat和KPI数据图对于正文中的“左图为抑郁倾向测试者示例图，右图为正常测试者示例图”表述，子图这样表示，符合表达吗？请明确。若不符合表达，是否可将正文中“三种数据图的左图为抑郁倾向测试者示例图，右图为正常测试者示例图”这句删除？这是依据图的规范而规避的

分析Scan Path、Heat数据图，抑郁倾向测试者对悲伤情绪面孔存在注意偏向，对平静和开心情绪面孔不存在注意偏向;正常测试者则对开心情绪面孔存在注意偏向，对悲伤和平静情绪面孔不存在注意偏向。

KPI数据图中包含dwell time（持续时间）、average fixation（平均注视时长）等重要指标，将KPI数据图中的测试者注视每张图中不同情绪面孔的时长与注视图片总时长的比值作为第二部分眼动特征。本文利用第二部分眼动特征进一步分析注意偏向，采用2（组别：抑郁倾向类和正常类）×2（情绪面孔：开心和悲伤）的设计，结果如表2所示。

其中：L为类标签，1表示抑郁倾向类，0表示正常类;Mean表示均值，SD（Standard）表示标准差，MSE（Mean Square Error）表示均值的标准误差。对于悲伤情绪面孔，从Mean、SD、MSE分析发现，抑郁倾向类的值均比正常类的值大，说明抑郁倾向的测试者对悲伤情绪面孔存在注意偏向，同时对上述分析F检验结果F值为14.544，p-value为0.004小于显著性水平0.05，t检验的结果p-value为0.008小于显著性水平为0.05，表示对悲伤情绪面孔的分析具有统计意义;同理，对开心情绪面孔分析，正常测试者对开心情绪面孔存在注意偏向，F检验结果F值为0.138，p-value为0.010小于显著性水平0.05，t检验的结果p-value为0.013小于显著性水平为0.05，表示对开心情绪面孔的分析具有统计意义。

3.3 数据集描述

本文从多角度研究抑郁倾向，将眼动特征、认知特征、记忆力特征以及网络行为特征融合。数据集包括：类标签L通过伯恩斯抑郁状况自查表测量得到;记忆力特征memory通过修订的韦氏记忆量表测验得到;认知风格特征cognition通过镶嵌图形测验得到;网络行为特征的emotion_picture表示照片所反映情绪的评分;dynamic_count表示两周内动态数;comment_count表示两周内动态评论数;face_count表示照片中人脸数;KPI数据图指标的happy_Ratio、sad_Ratio、calm_Ratio，分别表示注视每张图中开心、悲伤、平静情绪面孔与注视图片总时长的比值;Event Statistics眼动特征的Revisits表示兴趣区回访次数;Sequence表示视线落入AOI的顺序;Blink_Count表示眨眼次数;Fixation_Count表示注视点数等。由于Event Statistics眼动特征较多，本文只展示部分。

3.4 数据预处理

由于数据中存在缺失值、离群值等问题，本文對数据进行预处理，主要包括以下几方面。

1）缺失值处理。

缺失值处理的方法多种多样，如平均值填充法、多重插补等。比较多种处理方法，本文选择填充效率高的平均值填充法来处理缺失值。

2）离群值处理。

离群值可能影响数据分析结果，箱形图是一种分析离群值的方法，能直观描述数据离散分布的情况并且不受异常值的影响，图5为特征Blink_Count箱形图。

分析图5可知，特征Blink_Count的第631、641等行数据为离群值。对于离群值，首先检查是否为记录错误、仪器故障等问题，若是则删除离群值;反之，则将离群值删除前后各作一次统计分析，若前后不矛盾，则保留该值。

3）特征相关性分析。

为了处理特征关系，利用Pearson相关性分析特征之间的相关性，Pearson相关系数r的计算公式如式（7）所示：

其中：n为样本数，Xi和Yi为特征X和Y的样本值，和为均值，SX和SY为标准差。r的绝对值越大，说明特征之间的相关性越强：r的绝对值为（0.8，1.0]此类约束条件不严谨，如在=0.8时，属于哪个条件？请明确，为严谨起见，请用开闭区间来表示。表示极强相关，（0.6，0.8]表示强相关，（0.4，0.6]表示中度相关，（0.2，0.4]表示弱相关，[0，0.2]此处也应包含=0的情况吧，即用闭区间[0，0.2]来表示，准确吧？表示极弱相关。由于特征数量较多，图6只展示部分结果。

特征Blink_Count和Blink_Frequency的r的绝对值为0.97，说明两特征之间极强相关;特征Saccade_Count和Fixation_Count的r的绝对值为0.98，说明两特征之间极强相关此处应该为“极强相关”吧？请明确等。综合分析，许多特征之间存在相关性，为了从特征关系中获得更多有用信息，本文提出用扫描过程处理特征关系，4.1节将描述扫描过程的具体过程。

4 扫描堆叠模型

本文基于堆叠法提出抑郁倾向识别模型——扫描堆叠模型，该模型由扫描过程和堆叠结构两部分构成，扫描过程的作用为处理特征关系，从特征关系中获得有用信息;扫描过程的输出作为堆叠结构的输入，堆叠结构是一种基于堆叠法的集成结构，就是将多种互补模型组合成一个性能更好的模型，接下来介绍扫描堆叠模型架构以及实现过程。

4.1 扫描过程

深度神经网络目前在很多领域有着广泛应用，在特征处理方面表现出色，特征处理是影响模型预测结果的重要因素。在3.4节数据预处理中，很多特征之间存在相关性。为了从中获得这些有用信息，借鉴深度神经网络处理特征的原理，提出扫描过程处理特征关系，扫描过程的方法有多窗口扫描法和多步长扫描法两种：多窗口扫描法是以相同的步长滑动不同大小的窗口来处理特征;多步长扫描法是以相同的窗口滑动不同的步长来处理特征。扫描过程作用为：1）从数据中获得更多的有效信息;2）增强整体模型的学习能力;3）在一定程度上可以降低过拟合等。

以多窗口扫描法为例介绍扫描过程，如图7所示。输入n维特征向量，分别以m维和2m维大小的窗口用步长1（默认）扫描特征向量，以m维大小的窗口用步长1扫描得到（n-m-1）个m维特征向量;特征向量经过分类模型A1和B1，转换成2（n-m-1）个2维类别概率向量;然后，将类别概率向量用拼接函数拼接成一个2（n-m-1）维转换向量;同理，以2m维大小的窗口扫描后得到一个2（n-2m-1）维转换向量;最后用拼接函数将转换向量拼接成一个向量，并作为堆叠结构的输入。接下来将介绍堆叠结构。

4.2 堆叠结构

堆叠结构是一种基于堆叠法的集成结构，集成结构的思想为每个模型由其算法从数据集中产生，然后通过组合方法组合多个模型，最后得到一个预测结果，集成的一般结构如图8所示。按照集成结构中模型类型将集成分为同质集成和异构集成：同质集成是由相同类型的模型集成，如“神经网络集成”都是由神经网络集成等;异构集成是由不同类型的模型集成，异构集成应注意模型多样化以及单个模型性能等问题。

堆叠结构是一种基于堆叠法的异构集成，本文构建两层堆叠结构：第一层为基础模型层，第二层为元模型层。基础模型层训练多个不同类型的基础模型，各基础模型的输出作为元模型层的输入以训练元模型，最后得到一个预测结果，其中最简单的元模型为简单投票模型。

4.3 扫描堆叠模型

图9展示了扫描堆叠模型的架构，首先，对数据集进行预处理;然后，将预处理后的数据经过扫描过程，得到的输出结果作为堆叠结构的输入;最后，经过两层堆叠结构——基础模型层和元模型层，输出一个预测结果。扫描堆叠算法为：首先，输入n维特征向量，分别用m，2m，…，km（k值自定义）维特征大小的窗口以步长1扫描，并将扫描后的向量分别放入分类模型A和B中，得到多个2维的类别概率向量，因为本文为二分类问题，所以为2维的类别概率向量，将类别概率向量通过拼接函数拼接成转化变量（Conversion Vector请补充CR的英文全称， CR），并作为基础模型层的输入;其次，不同基础模型层算法Ft生成不同基础模型ht;各基础模型ht的输出作为元模型层的训练集CR′;最后，元模型层算法F用训练集CR′生成元模型h′，并输出一个最终的预测结果。

4.4 实现扫描堆叠模型

扫描堆叠模型的实现过程包括：实现扫描过程，需要选择合适的扫描方法和分类模型;堆叠结构需要实现基本模型层和元模型层。

4.4.1 实现扫描过程

为了实现扫描过程，需要选择合适的扫描方法，确定最佳的步长和窗口大小组合。经过分析比较，最佳的扫描方法为多窗口扫描法，即分别以5维和10维特征大小的窗口用步长1扫描特征;同时，需要选择性能好的分类模型，选择了7种应用广泛并且性能表现出色的模型，如KNN、SVM等，并在数据集上对模型进行测评，结果如表3所示。

在表3中，梯度提升决策树（Gradient Boosting Decision Tree， GBDT）模型的准确率最高为0.875，梯度提升决策树模型具有较强的泛化能力，在数据挖掘等方面表现出色，因此，选择GBDT作为扫描过程的分类模型。分類模型A和B均选择GBDT，其中分类模型A的损失函数为对数损失函数，分类模型B的损失函数为指数损失函数。

4.4.2 实现堆叠结构

本文构建两层堆叠结构：第一层为基础模型层;第二层为元模型层。堆叠结构实现时应注意泄漏问题，泄露问题即同一条数据既用于训练又用于预测，易造成过拟合问题。为了解决泄露问题，可以采用交叉验证的方法。

1）实现基础模型层。

实现基础模型层需要遵循两个原则：1）单个模型的性能至少好于随机预测[28]，否则会影响模型组合后的性能;2）各基础模型之间的相关性要尽可能地小，模型之间能更好地互补。

在4.4.1节中，对7种分类模型分析结果为，梯度提升决策树（GBDT）模型的准确率最高为0.875，朴素贝叶斯模型（Naive Bayes， NB）的准确率最低为0.705，7种模型的准确率均不低于0.50。为了使模型之间互补，探究了模型之间的相关性，结果如图10所示。

综合分析表3和图10，GBDT的准确率最高为0.875，因此选择GBDT作为基础模型h1;其次，选择与GBDT相关性小并且准确率高的模型，其中BP神经网络BPNN与GBDT相关性最小为0.59，准确率为0.844，将BPNN作为基础模型h2;同样，选择与GBDT和BPNN相关性均小并且准确率高的模型，KNN与BPNN的相关性最小为0.47，与GBDT的相关性也最小为0.49，准确率为0.801，因此选择KNN作为基础模型h3;最终，基础模型层由GBDT、BPNN、KNN、SVM四种基础模型构成。

2）实现元模型层。

为了寻找最佳元模型，以召回率（Recall）、精确度（Precision）及F1值作为元模型性能的评价指标：Recall和Precision反映了模型性能的两个方面，两指标之间互相制约;F1作为综合指标，是Recall和Precision的加权调和平均，能够全面评价模型的性能。

表4二分类混淆矩阵记录了每类被正确和错误划分的结果，L为类标签，L为1表示抑郁倾向类，L为0表示正常类;TP（True PositiveTP、FN、FP和TN的英文全称补充得正确吗？请明确）表示被正确划分的抑郁倾向类样本的个数，FN（False Negative）表示被错误划分为正常类样本的抑郁倾向样本类的个数，FP（False Positive）表示被错误划分为抑郁倾向类的正常类样本的个数，TN（True Negative）表示被正确划分的正常类样本的个数。Recall、Precision、F1值的公式如式（8）、（9）、（10）所示：

由表5可知，逻辑回归（Logistic Regression， LR）模型牺牲了Recall，得到了最高的Precision和F1值，并且逻辑回归模型稳定性强，能够有效地降低扫描堆叠模型过拟合的风险，因此将逻辑回归模型作为元模型。

综上所述，本文基于堆叠法构建扫描堆叠模型，实现过程为：首先，在对数据进行预处理之后，通过多步扫描方法处理特征关系;然后，将扫描过程的输出作为基础模型层的输入，其中基础模型层由GBDT、BPNN、KNN、SVM四种基础模型构成;最后，将各基础模型层的输出作为元模型层的输入，并最终得到一个预测结果，其中元模型层由逻辑回归模型构成。

4.5 评价扫描堆叠模型性能

为了客观、全面评价扫描堆叠模型的性能，既评价扫描堆叠模型的扫描过程和堆叠法独立贡献，又将扫描堆叠模型与多种模型进行比较。

4.5.1 扫描过程和堆叠法独立贡献

为了评价扫描过程和堆叠法独立贡献，将扫描堆叠模型与堆叠模型以及扫描投票模型之间进行分析比较，与堆叠模型比较的目的是探究扫描过程独立的贡献，而与扫描投票模型比较的目的是探究堆叠法对模型性能的影响，扫描投票模型和扫描堆叠模型的基础模型层完全相同。

ROC（Receiver Operating Characteristic）曲线[29]能够直观分析模型的性能，曲线的横坐标为FPR（False Positive Rate请补充FPR和TPR的英文全称），纵坐标为TPR（True Positive Rate），FPR表示实际为正常类的样本中被预测为抑郁倾向类的比值;TPR表示实际为抑郁倾向类的样本中被预测为抑郁倾向类的比值，ROC曲线较好地反映了FPR和TPR两者之间的变化关系。一般来说，一个模型的ROC曲线越接近左上角，即曲线覆盖面积AUC越大，说明模型的性能越强。图11展示了堆叠模型（Stacking）、扫描堆叠（Scanning Stacking）模型以及扫描投票（Scanning Voting）模型的ROC曲线。

由图11分析得，扫描堆叠模型的准确率为0.93，堆叠模型的准确率为0.90，扫描投票模型的准确率为0.91，即扫描过程对扫描堆叠模型独立贡献为0.03，堆叠法对扫描堆叠堆叠模型独立贡献为0.02。总之，扫描过程和堆叠法均提高了扫描堆叠模型的性能。

4.5.2 多种模型比较

为了全面评价扫描堆叠模型的性能，本文将扫描堆叠模型与多种模型从R平方（R-squared）、均方误差（Mean Squared Error， MSE）、平均绝对误差（Mean Absolute Error， MAE）三个参数进行对比分析，所有模型均采用十折交叉验证，结果如表6所示，其中SVR（Support Vector Regression）为支持向量回归机请补充SVR的中文全称和英文名称。

R-squared一般取值范围从0到1，R-squared值越接近1，说明模型的拟合度越好;MSE用来说明数据变化程度，MSE的值越小，表示模型的准确度越高;MAE是平均绝对误差，能更好反映预测值误差的情况，MAE的值越小，表示模型预测效果越好。综合分析R-squared、MSE、MAE三个参数，扫描堆叠（Scanning Stacking）模型的R-squared值為0.8080，与其他模型相比最接近1，表示扫描堆叠模型的拟合程度较好;MSE的值为0.8276，与其他模型相比值较小，表示扫描堆叠模型的准确度较高;MAE的值为0.0305，与其他模型相比值较小，表示扫描堆叠模型的预测效果较好。综上分析，扫描堆叠模型与以上模型相比性能较好。

5 结语

本文通过将心理健康自查表和眼动追踪结合、多角度结合研究抑郁倾向、融合多种类型特征，提高了抑郁倾向识别方法的客观性和准确性。基于堆叠法提出抑郁倾向识别模型——扫描堆叠模型，该模型由扫描过程和两层堆叠结构构成，扫描过程和堆叠法均提高了模型的整体性能，与多种不同分类模型比较扫描堆叠模型的性能较好。扫描堆叠模型作为抑郁倾向识别模型，可以帮助心理医生判断分析，从而降低误诊的概率，具有一定的现实意义。

未来工作可以从以下几方面进行：扩大、均衡数据集;将其他类型的特征融合识别抑郁倾向，例如脑电特征等;利用眼动追踪研究抑郁倾向与慢性肺阻病（Chronic Obstructive Pulmonary Diseases， COPD）等其他疾病之间的相关性。

参考文献（References）

[1] COOHEY C， EASTON S D. Distal stressors and depression among homeless men[J]. Health & Social Work， 2016， 41（2）：111.

[2] KATON W， VON KORFF M， LIN E， et al. Collaborative management to achieve treatment guidelines： impact on depression in primary care[J]. The Journal of the American Medical Association， 1995， 273（13）：1026-1031.

[3] ZUNG W W. A self-rating depression scale[J]. Archives of General Psychiatry， 1965， 12（12）：63.

[4] JOORMANN J， GOTLIB I H. Selective attention to emotional faces following recovery from depression[J]. Journal of Abnormal Psychology， 2007， 116（1）：80-85.

[5] HELLER W， ETIENNE M A， MILLER G A. Patterns of perceptual asymmetry in depression and anxiety： implications for neuropsychological models of emotion and psychopathology[J]. Journal of Abnormal Psychology， 1995， 104（2）：327.

[6] FRITZSCHE A， DAHME B， GOTLIB I H， et al. Specificity of cognitive biases in patients with current depression and remitted depression and in patients with asthma[J]. Psychological Medicine， 2010， 40（5）：815-826.

[7] 任力杰，陆兵勋，吴明祥，等.抑郁症患者工作记忆损害与磁共振扩散张量成像部分各向异性值相关性的研究[J].中华行为医学与脑科学杂志，2010，19（4）：325-327.（REN L J， LU B X， WU M X， et al. Correlation between working memory impairment and partial anisotropy of magnetic resonance diffusion tensor imaging in patients with depression[J]. Chinese Journal of Behavioral Medicine and Brain Science， 2010， 19（4）： 325-327.）

[8] SAKI N， DEHGHANI FARD A， KAVIANI S， et al. Beta thalasemia： epidemiology， diagnostic and treatment approach in Iran [J]. Genetics in Millennium， 2012， 20（8）：26-39.

[9] MAJOR B， MUELLER P， HILDEBRANDT K. Attributions， expectations， and coping with abortion[J]. Journal of Personality & Social Psychology， 1985， 48（3）：585.

[10] EYSENCK H J. Cognitive styles： essence and origins[J]. Personality & Individual Differences， 1982， 3（1）：103-103.

[11] BRUNSWIK E. Perception and representative design of psychological experiments [J]. Philosophical Quarterly， 1958， 8（33）：42-61.

[12] LI L， LI A， HAO B， et al. Predicting active users personality based on micro-blogging behaviors[J]. PLoS One， 2013， 9（1）： 84-97.

[13] 胡志海.大學生互联网使用行为影响因素分析[J].中国公共卫生，2008，24（3）：294-295.（HU Z H. An analysis of the influence factors of college students Internet use behavior [J]. Chinese Journal of Public Health， 2008， 24（3）：294-295.）

[14] MORENO M A， JELENCHICK L A， EGAN K G， et al. Feeling bad on Facebook： depression disclosures by college students on a social networking site[J]. Depression & Anxiety， 2011， 28（6）：447-455.

[15] KATIKALAPUDI R， CHELLAPPAN S， MONTGOMERY F， et al. Associating Internet usage with depressive behavior among college students [J]. IEEE Technology & Society Magazine， 2012， 31（4）：73-80.

[16] LECUN Y， BENGIO Y， HINTON G. Deep learning[J]. Nature， 2015， 521（7553）：436.

[17] PITTS W. A logical calculus of the ideas immanent in nervous activity[J]. Bulletin of Mathematical Biology， 1990， 52（1）：99-115.

[18] WEI X S， ZHOU Z H. An empirical study on image bag generators for multi-instance learning[J]. Machine Learning， 2016， 105（2）：1-44.

[19] GUO G， WANG H， BELL D， et al. KNN model-based approach in classification[C]// Proceedings of the 2003 OTM Confederated International Conferences “On the Move to Meaningful Internet Systems”. Berlin： Springer， 2003： 986-996.

[20] CORTES C， VAPNIK V. Support-vector networks[J]. Machine Learning， 1995， 20（3）：273-297.

[21] BATES J M， GRANGER C W J. The combination of forecasts[J]. Journal of the Operational Research Society， 1969， 20（4）：451-468.

[22] WOLPERT D H. Stacked generalization[J]. Neural Networks， 1992， 5（2）：241-259.

[23] BREIMAN L. Bagging predictors[J]. Machine Learning， 1996， 24（2）：123-140.

[24] WEST D， DELLANA S， QIAN J. Neural network ensemble strategies for financial decision applications[J]. Computers & Operations Research， 2005， 32（10）：2543-2559.

[25] BLAND J M， ALTMAN D G. Cronbachs Alpha[J]. British Medical Journal， 1997， 314（7080）：572.

[26] 龔耀先，谢光荣，江达威，等.修订韦氏记忆量表[C]//全国第四届心理学学术会议.北京：[出版者不详]，1981：120-123.（GONG Y X， XIE G R， JIANG D W， et al. Revising Wechsler memory scale[C]// Proceedings of the Fourth National Conference on Psychology. Beijing： [s.n.]， 1981： 120-123.）

[27] WITKIN H A， MOORE C A， GOODENOUGH D R， et al. Field-dependent and field-independent cognitive styles and their educational implications[J]. ETS Research Bulletin， 1975， 1975（2）：1-64.

[28] 李珩，朱靖波，姚天顺.基于Stacking算法的组合分类器及其应用于中文组块分析[J].计算机研究与发展，2005，42（5）：844-848.（LI H， ZHU J B， YAO T S. A combined classifier based on stacking algorithm and its application in Chinese chunk block analysis [J]. Journal of Computer Research and Development， 2005， 42（5）：844-848.）

[29] METZ C E. Basic principles of ROC analysis[J]. Seminars in Nuclear Medicine， 1978， 8（4）：283.