当前位置:首页 期刊杂志

面向学习者画像的数据采集方法分析

时间:2024-05-04

高广尚

(1.桂林理工大学现代企业管理研究中心,桂林 541004;2.桂林理工大学商学院,桂林 541004)

0 引言

学习者画像(Learner Profiles)是用户画像在教育领域应用中的一种特殊形态,旨在刻画学习者的学习兴趣、认知能力、知识水平、学习风格和综合能力等诸多特征[1-3]。作为一种描述学习者的有效工具,学习者画像不仅可以根据某些特定特征来划分或区分不同的学习者群体,还可以为学习者提供有针对性的支持服务、实现个性化学习、促进学习目标达成,甚至优化教学设计方案等[4]。随着网络教育环境的进一步发展,特别是大规模在线开放课程的出现,再加上从传统学习过程的各环节中转化而来的分散独立的数据,学习者有关的数据基本上呈现爆发式增长态势且势头不减。这些数据通常具有量大(上万或几十万名学习者)、多维(学习者的不同方面)、时间序列短(数据采集时间间隔短)、时间跨度长(数据采集周期长)和一定的理论深度(理论意涵)等特征[5]。这无疑给学习者数据的有效采集带来较大难度,同时也给学习者画像的有效构建带来严峻挑战。

为能采集到学习者在学习活动过程中近乎真实的状态、行为数据,现有研究提出了一些数据采集方法[6-9],但这些方法仍存在一些问题:一是数据采集过程中未充分利用新兴信息技术,从而导致复杂学习环境下所采集到的数据在及时性、准确性和完整性等方面难以得到保证;二是数据采集过程中未充分考虑到学习者的状态、行为可能会受到其他诸多因素影响,从而导致采集到大量无效的数据;三是数据采集过程中未全面认识到所采集到的数据在数量、质量和类型等方面仍需进一步扩展和加强,从而导致数据难以在源头上真正得到满足。

1 学习者画像的特征维度及数据

从理论上而言,学习者在学习过程中的一举一动、一言一行都可以转化为数据,这些数据反过来又可从本质上刻画学习者的某方面特征。因此,如何根据学习者特征来对这些数据进行语义层面上的预先划分或归类,以使其在给学习者进行画像时能作为某些特征维度的数据,将是构建完整的学习者画像时所要考虑的首要关键因素。考虑到如何预先划分哪些特征维度来描述学习者,与将要对学习者的整个学习过程所开展的有针对性的动态追踪研究密切相关,因此笔者首先分析学习者画像的特征维度的划分依据,然后在此基础上深入探讨各特征维度下可使用的数据来源、所表达的主要信息等内容。

1.1 学习者画像的特征维度

通常情况下,采用什么特征维度来描述学习者可能取决于我们的经验、理性分析和直觉等因素。在这种背景下,为尽可能实现对学习者的多维度、全方位描述,笔者在分析学习者画像概念及其内涵的基础上,总结出被业界认可的八种主要特征维度,分别是基本信息、内容偏好、学习风格、学习状态、学习行为、学习状态、社交互动、学习环境和个人发展等。事实上,能描绘学习者的特征维度可能多达数千个。鉴于学习者数据本身具有来源广泛性和类型多样性等一系列复杂的特性,因此,笔者认为在划分特征维度时应重点考虑以下三个方面:①所有特征维度的划分都应根据相关性原则,并结合具体实际情形需求和业务目标来分别加以确定;②在确保准确性、时效性的前提下,特征维度的划分并非越丰富越好,而是越细化越好;③特征维度划分本身是一个复杂多变的动态过程,有着一定的自身内在规律,并可能存在一系列的影响因素,例如,我们无法仅从获取的外部数据来完全了解学习者的内心世界等,因此应尽可能避免划分模糊的情形出现。

1.2 特征维度下的相应数据

就数据事实性而言,学习者的特征维度数据可分为静态数据(直接数据)和动态数据(间接数据)这两类。其中,静态数据是指那些随时间推移但仍保持相对稳定的学习者的基本信息、状态等数据;动态数据是指那些由学习者的一系列学习行为所产生的数据,例如浏览时长等。一般认为,特征维度数据的来源大致分为三类:一是学习者本身所具有的广泛的基本属性数据;二是数字化教学环境下自然而然地产生的数据;三是传统学习环境下直接产生的数据。事实上,属于不同特征维度的不同来源数据之间本质上存在着较大差异,鉴于此,笔者从数据来源、主要信息、性质和采集方式这四个方面来对其进行对比分析,如表1所示。

表1 特征维度数据的具体内容

2 学习者画像的多维度数据采集

实践证明,为能客观有效地采集到足够全面的多维度数据,我们需要综合运用与之相适应的技术、方式或途径,因为它们在采集标准、范围和重点等方面有所不同。鉴于此,笔者从以下三个方面来对学习者数据采集的实现方法展开详细分析:新兴信息类技术、管理平台类技术和传统线下类方式。

2.1 新兴信息类技术采集法

该类技术主要包括大数据技术、云计算技术、深度学习技术、情感识别技术和可穿戴设备技术等。

(1)大数据技术

大数据技术能够持续记录、跟踪和分析学习者的各方面数据信息,包括即时性、过程性的行为与现象,例如在某时间点或某时间段中的行为或心理数据、学习者检索资源的次数、阅读资源的时长等。相较于传统方式所获得的数据,大数据技术采集到的数据将更加全面、真实和准确,同时具有实时、误差较小和多元化等特征。

(2)云计算技术

不同于传统的计算机,云计算技术引入了一种全新的方便人们使用计算资源的模式,即云计算能让人们方便、快捷地自助使用远程计算资源。基于云计算技术的教育基础数据的采集能够达到实时共享的目的,且数据服务更加全面[10]。此外,它为课堂教学过程中的一系列“可量化”奠定了基础,例如教学过程的可量化、校园管理的可量化、教育评价的可量化等[11]。

(3)深度学习技术

深度学习技术是将原始的数据特征通过多步的特征转换得到一种特征表示,并进一步输入到预测函数得到最终结果[12]。近年来,深度学习技术在教育应用领域颇受重视,因为它可以在历史数据较少的情况下扩大现有数据。例如,通过将高校各类过程化、结果化的数据作为训练集,并经过不断的“训练”学习后,深度学习技术就可很好地对有关学习者的新数据进行自行预测(计算)并得出结果,这些结果将能更精准实时反映学习者的学习行为和学习成果等状态。

(4)情感识别技术

情感识别是识别人类情感的过程,最常见的是来自面部表情以及言语表达,其中,面部表情含有丰富的情感信息,能反映出人的心理状态和情绪变化。目前,主流的情感识别技术是基于面部表情特征的情感计算,该技术通过摄像头来实时采集学习者的脸部五官位置、肌肉运动等表情特征值以进行情绪识别。更具体地说,为能实现学习过程中学习者情感识别,情感识别技术首先要明确识别哪些情感及每种情感所对应的面部表情特征是什么,例如高兴、愤怒、厌烦、恐惧、悲伤和惊讶等[13]。

(5)可穿戴设备技术

可穿戴设备技术为自然采集学习者的生理数据提供了可能,例如,通过佩戴相关设备,人们可以实时记录学习者的运动状态、呼吸量、血压、运动量和睡眠质量等生理状态数据,以及学习的时间、内容、地点和使用设备等学习信息。总之,使用可穿戴设备,人们可在任何时间和任何地点获取数据。

2.2 管理平台类技术采集法

该类技术主要包括在线学习与管理平台技术、日志搜索分析技术、移动App技术、网络爬虫技术和API接口调用技术。

(1)在线学习与管理平台技术

在线学习与管理平台是学习者数据采集的重要载体,可以采集学习者线上学习过程中的大部分数据,例如提交作业、浏览资源、讨论区发言,以及学习者与学习管理系统的交互和点击等行为数据[14]。总之,通过特定的平台既可以形成学习者特有的电子档案,又可以跟踪学习者不同阶段学习状态的变化。

(2)日志搜索分析技术

Web服务器所产生的日志文件中记录了学习者的每一次操作行为,例如系统登录次数、登录时间、增删查改等基本访问数据,以及学习者与课程交互活动的次数、学习者对课程内容的访问、访问时间、访问位置、浏览路径等重要的行为数据[15]。事实上,日志搜索分析技术通过日志管理工具来从海量的日志数据中挖掘出有价值的信息或筛选出有用的信息,进而为学习者的个性化学习、差异化学习和画像的构建等提供强有力的数据支撑。

(3)移动App技术

通过移动App来获取学习者线上学习过程中的数据已逐渐成为在线数据采集的一种关键技术[16]。移动App技术本质上与在线学习与管理平台技术类似,但前者的采集渠道主要是智能移动终端设备,而且采集方式更加灵活、多样。事实上,通过结合移动终端的定位技术,移动App技术能实时采集学习者的学习地点、学习时间、学习内容和学习状态等信息。此外,移动终端应用的安装情况和活动频次也可以用来揭示学习者的兴趣和爱好等[17]。

(4)网络爬虫技术

网络爬虫技术可以实现从简单的文本、图像和视频到更复杂的动态信息的采集[18]。它不仅能从网页中提取非结构化数据,将其存储为统一的本地数据文件并以结构化方式存储,而且支持文件、音频、视频、其他文件或附件的信息采集,并且附件和文本可以自动关联。此外,针对特定网站的特定数据采集需求,我们可结合开源系统来自行开发爬虫工具(例如八爪鱼采集器、网页抓取软件等),这将使得采集过程具有更高的自由性和自主性。随着互联网新媒体(例如门户网站、微博和微信等)的兴起,教育领域的信息传播也将呈现出传播速度快、波及范围广和内容多样化等特点,与此同时,网络爬虫技术也可被用来定期实时采集教育领域网络舆情数据等[19]。

(5)API接口调用技术

API的全称为Application Programming Interface,是网站管理者为了使用者方便而编写的一种程序接口(一些预先定义的函数),它屏蔽了网站的底层复杂算法。通过简单调用API接口,第三方程序能轻松实现对数据的请求。事实上,利用网站自身提供的API接口进行数据采集时可以很好地解决数据针对性的问题。随着越来越多的教育类网站推出开放平台并提供丰富的API接口,在已获授权的情况下,第三方程序可通过这些API接口直接获取相关数据[20]。重要的是,通过API接口获取的数据通常以JSON、XML格式呈现,因而具有较清晰的数据结构形式,这便于第三方程序直接进行数据抽取。此外,美国高级分布式学习(Advanced Distributed Learning,ADL)组织发布了Experience API(xAPI)规范,它是一种收集、存储数据的标准,具有独立性和可扩展性,且不依附于其他平台[21]。实践中,基于xAPI的交互技术可以实现教学内容的设置、学生与学习系统的交互性和学习方法的定制化等。

工业革命之前,技术进步非常缓慢,一个人一生几乎感受不到技术的进步,沿着同样的技术路径劳动和生活,可谓天经地义。工业革命以后,尤其是20世纪下半叶以来,一个人可以感受到技术的明显进步。1980年代以来,每十年甚至每年都可以感受到技术的明显进步。

2.3 传统线下类方式采集法

该类方式主要包括在问卷调查方式、深度访谈方式、小组座谈方式和课堂观察方式等。

(1)问卷调查方式

问卷调查可以在较大范围内让众多被访问者同时填写,因而能够在较短时间内采集到大量数据(定量数据)。问卷调查是一种比较传统但却非常有效的手段,通过问卷调查我们可以采集到学习者对学习过程的态度、需求和建议等。值得说明的是,通过问卷调查获取的数据可能存在很多质量问题,这些数据可以作为参考,但要以质疑的眼光看待。

(2)深度访谈方式

深度访谈通过面对面沟通、电话等方式来与学习者直接进行交流,它具有操作方便、适应性强等特点,它可以深入地探索被访者的内心与看法,且容易达到理想的效果。值得说明的是,深度访谈方式的两个关键步骤是:访谈之前要列好访谈提纲,围绕学习者的一系列学习行为而展开,例如学习者的观点、想法等;访谈之后要能采取关键词提炼法,对每个学习者对每个问题的回答进行关键词提炼、共性词汇总等。

(3)小组座谈方式

(4)课堂观察方式

课堂观察方式是通过借助主观感觉器官、其他研究工具等以从一线课堂中采集数据或其他研究材料的方法[22]。课堂观察方式涉及的研究工具包括各类课堂观察量表,例如学生学习行为量表、学生活动等级量表和师生互动等级量表等。这些不同的观察量表分别具有不同的制定标准,且关注点也各不相同,但均需通过观察者主观观察来得到相应的数据[23]。事实上,我们可使用多媒体设备来代替传统课堂的教学环境数据采集方法,例如通过多机位的课堂录像来多角度记录课堂行为,这样我们可随时随地根据研究需要查看或点播所需的课堂录像信息[23]。

综上所述,通过传统线下类方式采集数据时具有较强的人为主观性,且难以保证所采集数据的真实性。事实上,传统线下类方式因采集难度大、采集量小而一直被业界所忽视,尽管它能对线上数据的采集进行有效的补充。

3 结语

学习者数据的高质量采集将是教育行业目前和今后最重要的工作之一,也是有效构建学习者画像的基础性、先导性工作[24]。

为能进行科学、全面和持续的数据采集积累,以得到具有分析利用价值的学习者数据,进而使构建的学习者画像更为精准有效,笔者认为在学习者数据采集方面未来仍有一些开放性问题值得探讨:

(1)实施全方位、全过程的数据采集

现有方法采集到的学习者数据中还存在着一些问题,例如稀疏性、缺失性、偏差性和时效性等,这不仅让学习者复杂多变的状态无法得以有效细致地描述,更会直接导致学习者画像模型的精准度偏低。因此,为让采集积累的数据尽可能更加优质可靠,便于有效利用,我们需要对足够全面的属性、维度和参与指标等方面的数据进行全方位、全过程采集[8]。例如,在采集学习者行为数据的同时,最好也能采集和学习者行为相关的场景数据,以便后续能据此进行有效的数据分析。

(2)实施线上、线下相结合的数据采集

信息技术、互联网技术的发展进步打破了时空限制,使得线上线下相结合的数据采集方式变得更为必要。事实上,线上线下相结合的数据采集方式不仅能有效采集到学习者最真实的学习状态,更能克服单纯根据某一受限指标(例如短期兴趣、长期兴趣等)来采集线上数据或线下数据时所存在的弊端。更为重要的是,线上线下相结合的数据采集方式还能较为准确地获取到学习者学习过程中心理与认知等方面较难采集到的数据[25]。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!