时间:2024-05-04
赵梓辰 卫来 陆小锋
(1.上海大学通信与信息工程学院 上海市 200444 2.蒙特沃德学院(上海) 上海市 201201)
当今社会由信息驱动,阅读对于个体的身心发展起着至关重要的作用。但是,有一群拥有正常智力、没有明显的神经异常、有足够的教育条件,却依然表现出阅读困难的人,这一类人群通常都有视觉功能障碍,如偏视、斜视等。目前,这样的儿童,检出率大概在4-8%。由此可以看出儿童注意力低下已经成为一种常见的学习障碍。由于注意力低下的儿童在阅读识字方面存在一定的困难,因此影响了他们正常的学习和生活。有调查显示,儿童的厌学情绪与长大后面临的就业压力都与阅读障碍有紧密联系。尤其是小学阶段的阅读障碍儿童,在识字方面有困难不仅会影响其语文成绩,由于对算术应用题的题目不理解也会影响其数学成绩,进而对他们自我概念的形成产生了一定的影响。
注意力是指人的心理活动指向和集中于某种事物的能力[1],目前的注意力评测方式主要有纸质量表、行为观察和专业仪器检测等方法,随着科学技术的不断发展,视线跟踪技术逐渐应用于注意力的研究。视线跟踪方法可分为基于2D回归的视线估计方法、基于3D人眼模型的视线跟踪方法、基于人眼外观特征的视线跟踪方法[2]。采用以上传统方法的视线追踪设备存在结构复杂、伤害眼睛、价格高昂和使用步骤繁琐等问题。
本项目研究了基于神经网络的视线追踪单眼注视点估计模型算法,可估计双眼各自的注视点坐标,从而计算测试者阅读时的两眼平均差值,与传统基于神经网络的注视点估计模型预测双眼视线汇聚点坐标不同。基于此算法模型开发青少年注意力快速评价筛查系统,与使用传统视线追踪设备相比,不需要额外硬件设备,仅通过单目摄像头即可实现视线追踪,降低了测试门槛,操作简单快速。系统使用注视点估计模型获取青少年阅读中的注视点坐标,计算相应眼动数据,从而评判青少年的注意力水平。
本系统通过基于神经网络的视线追踪方法[3][4],获取青少年阅读时的视线轨迹,计算相应眼动数据,从而分析注意力水平。视线轨迹、眼动数据都可以通过青少年阅读过程中双眼在屏幕上的注视点坐标来获取。
注视点估计即估算人眼视线的落点,其一般场景是估计人在一个二维平面上的注视点,如手机屏幕、电脑屏幕等,而模型输入的图像则是这些设备的前置摄像头拍摄的。现有的视线追踪公开数据集有GazeCapture[3]、MPIIFaceGaze[5]等,但被采集者以成年人为主,不符合本项目系统的应用场景,所以我们提出了一个全新的以青少年为主的视线追踪数据集。
我们在屏幕中共预设35个目标点依次随机出现,每个目标点持续4秒,采集过程中被测人依次注视出现的目标十字,通过笔记本自带摄像头,在同一方位、同一角度下录制各目标点对应的视频帧。并使用dlib库对图像分割出脸部、左眼、右眼图像作为模型输入。如图1所示。
图1:屏幕中的35个标定点
考虑到标定点转换时测试者会出现视线漂移的情况,为了确保样本中测试者在注视标定点,我们仅使用每个标注点后3秒的注视图像作为样本数据。
本数据集共采集30个样本,每个样本共3150帧图像,数据集总规模为9万帧图像。如图2所示。
图2:单眼注视点估计模型
我们的目标是设计一种可以利用单一图像信息来准确预测注视点的方法,鉴于卷积神经网络(CNN)强大的特征提取能力,我们使用这种方法来解决注视点估计问题。模型网络共有3个输入信息:左眼或右眼图像、脸部图像、眼睛位置信息,输出为2维屏幕上的注视点坐标。因研究注意力问题需要单眼视线落点,所以我们的模型仅输入单眼图像,从而得到单眼的视线落点坐标。该模型以头部相对于相机的姿态以及眼睛相对于头部的位置信息预测凝视的位置。
从原始图像中截取眼睛图像和脸部图像,图像尺寸转换为224×224,眼部网格是一个二进制掩膜,用于指示眼睛在所处原始图像中的位置,大小为15×15。模型主要由卷积层(过滤器大小/内核数量:卷积层E1,卷积层F1:11×11/96,卷积层E2,卷积层F2:5×5/256,卷积层E3,卷积层F3:3×3/384,卷积层E4,卷积层F4:1×1/64)和全连接层(大小:全连接层E1:128,全连接层F1:128,全连接层F2:64,全连接层FG1:256,全连接层FG2:128,全连接层1:128,全连接层2:2)组成,为了更好地让模型聚焦于关键特征,在卷积层中嵌入混合注意力模块。网络模型的总体架构如图2所示。
我们将数据集以9:1的比例划分为训练集与测试集,输入模型训练进行15次正向传播和反向传播,训练模型的硬件平台配置为:显卡:RTX 3080,显存:10G,处理器:AMD 5800X,内存:32G,训练时长共30个小时。同时,为了提高模型的精度,我们加入了微调的步骤:在进行验证模型前,使用同一样本的注视不同标定点的数据训练模型,之后再进行验证,微调时的数据采集条件均与数据集的采集条件一致。以13寸的显示屏为基准,模型的平均误差为3.2cm。模型应用平台硬件配置为:显卡:GTX1650Q,显存:4G,处理器:intel i7-1065G7,内存:16G,平均检测时间在0.13s左右。
将上述视线追踪注视点估计算法应用于青少年注意力快速评价筛查软件。软件通过单目摄像头获取青少年阅读过程中的视频,按帧截取后输入注视点估计模型,得到青少年阅读中每一帧图像所对应的注视点坐标。
青少年注意力快速评价筛查软件基于C#语言开发,软件流程如下:测试者输入信息,根据提示进行面部姿态定位调整,之后阅读指定材料并回答题目。系统截取阅读过程的视频帧输入注视点估计模型,得到注视点坐标后计算相关眼动数据,最后生成结果报告。软件流程如图3。
图3:筛查软件流程图
进入软件首页,测试者输入姓名、性别、年龄信息;之后测试者根据提示,调整头部姿态,与屏幕中的脸部框贴合,进行校准,校准完成后保持此头部姿态不变;最后进入阅读环节,被测者首先注视屏幕,选择与自己年龄对应的文章等级并阅读屏幕中出现的短文,其次完成阅读后进行答题,确保测试数据的有效性。阅读过程中前置单目摄像头全程录制视频。软件相关界面如图4。
图4:软件界面图
最终将阅读过程中的视频按帧截取,通过dlib库截取对应帧的左右眼及脸部图像作为模型的输入,输出得到每一帧对应的注视点坐标。
我们感知世界的最主要途径是视觉感知,大脑通过对获得的视觉图像进行加工,来对眼动过程进行调整,因此眼动数据与感知及其认知存在着重要联系。阅读是一种最有效的评估和多感官体验,所以系统通过分析青少年阅读过程中眼动数据并结合阅读效率,来评价青少年注意力问题。参考美国readingplus公司提供的阅读测试方案,系统选择了50篇英文文章,分为五个等级,对应各个年龄阶段的青少年。
对注视点坐标从时间、空间上进行分析计算,可得到相应的眼动数据。系统共计算以下眼动数据:两眼平均差值、回看时过度扫视次数、部分回看行数、总注视时间、丢失率、总回看次数[6][7],并且为部分眼动数据制定相应指标,作为评判注意力的标准。
阅读完成后,回答相应问题,答题正确率达到60%证明测试者认真阅读了材料,此次测试数据为有效数据,正确率不作为视觉注意力的评判依据;两眼平均差值作为主要评判标准,可反应测试者阅读过程中的双眼相关性,数值越低,双眼相关性越好。平均差值过高,测试者可能存在斜视、弱视等视觉疾病,选取5度作为评判标准,计算公式为:
(其中:n为总注视点个数,s为左右眼注视点距离,d为脸部与屏幕距离);丢失率为注视点飘出屏幕有效范围外占总注视次数的比值,标准指标设为5%,若超出5%,该青少年阅读过程中可能存在注意力不集中的问题;回看次数和过度扫视次数主要反应青少年的阅读习惯;部分回看行数、总注视时间,因各个青少年的英语基础不同,而各不相同,作为辅助的判别依据。表1为某位青少年的阅读眼动数据,图5为该青少年的阅读轨迹图。
图5:眼动轨迹图
表1:阅读中的眼动数据及指标
由表1可知,该青少年答题正确率为90%,证明此次阅读的眼动数据为有效数据;两眼平均差值较低,不存在眼部视觉问题;丢失率较高,阅读过程中可能存在注意力不集中的问题;过度扫视次数及回看次数过高,可能存在阅读习惯问题。综上,该青少年可能存在注意力问题,建议参加相关提高注意力水平的专业训练,并且改善阅读习惯。
在某中学使用本系统测试了100个青少年,共筛查出35位可能存在注意力问题的青少年。本系统以12.9寸屏幕为基准,注视点估计平均误差为3.2cm,注视点平均估计算法运算时间为0.13秒,整体筛查时间在5min以内,模型精度与检测速度符合医院专家提供的医学临床要求。
该项目研究了基于神经网络的视线追踪单眼注视点估计模型,基于此模型设计开发了青少年注意力快速评价筛查软件,与传统基于视线追踪的注意力测评系统相比,本系统仅通过单目摄像头即可完成测试,不需要额外的硬件设备,具有使用成本低、适用性强、操作简单,不对眼部产生额外伤害等优点,可以及时有效地筛选出可能存在注意力问题的青少年,让他们进行进一步专业的检测和治疗。
参考相关文献并结合专业医师建议,系统共计算以下眼动数据:两眼平均差值、过度扫视次数、部分回看行数、总注视时间、丢失率、回看次数,其中部分数据作为注意力水平的评判标准。使用该系统在某中学测试了100位青少年,筛查出35位可能存在注意力问题的青少年,验证了该系统可以有效筛查出可能存在注意力问题的青少年。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!