时间:2024-05-04
谢锐兵
(浙江广厦建设职业技术学院,东阳 322100)
随着互联网技术的快速发展和电脑、智能手机等智能设备的普及,在线学习呈突飞猛进式发展,其范围涵盖了各种校内课程教育、校外辅导和成人终身教育以及社会职业教育、技能培训等。“互联网+”教育因其数字化、自主化、碎片化、灵活性等的学习优势非常受大家的欢迎。随着各种网络学习资源的开发建设积累和网络资源开放性、共享性的不断加大,在线学习系统中的学习资源也日益增加,这在给学习人员带来丰富充实的学习资源的同时,也给学习人员带来了选择的困恼,容易给学习人员带来“资源迷航”[1]。因材施教历来是中国教育遵循的原则,个性化学习需求也越来越受人们重视,国家在2010 年制定的《国家中长期教育改革和发展规划纲要(2010-2020)》中就提出了尊重个性化学习需求的意见[1]。学习资源陈列式展示的在线学习平台很明显无法有效实现个性化学习需求。
人工智能的快速发展和应用,给在线学习的发展带来了契机。人工智能于1956 年被提出以来,已经在各行各业获得了应用,人工智能在教育领域的应用也越来越受专家学者的重视,“智慧学习”已经成了一个热门话题。运用互联网技术和人工智能技术构建支持学习者自适应学习的智适应学习系统,是当前在线学习研究的主要方向之一。自适应学习是指满足个性化学习需求的学习模式,智适应系统的核心功能是能根据用户信息、资源信息和学习行为日志进行数据分析和计算,通过数据挖掘、机器学习等技术进行模型量化,再运用相关的推荐算法构建出适合学习者的最优学习路径,从而有针对性的向用户推荐学习资源,满足个性化学习需求。
推荐算法是实现个性化推荐的关键技术,目前常用的推荐算法有基于内容的推荐算法、基于协同过滤的推荐算法、基于关联规则的推荐算法、基于知识的推荐算法、组合推荐算法等,其中基于协同过滤推荐算法是应用最为广泛的经典算法,也是目前智能化学习系统中主要应用的推荐算法[2]。然而在线学习平台使用基于协同过滤推荐算法会存在数据稀疏和冷启动问题,很多专家学者也提出了不同的解决方法。申云凤提出将人工神经网络算法和蚁群算法运用到用户相似度模型构建和协同过滤推荐过程中[3];熊慧君等人提出了二次协同过滤推荐的思路[4];孙华燕等人提出了通过基于因果聚类分析和基于模糊相似关系来对协同过滤推荐算法进行改进[5]。本文研究了基于行为量化的协同过滤推荐和基于特性和内容标签的推荐的算法组合使用,以此来实现个性化推荐,以及改善数据稀缺和冷启动问题,并在建筑业工人移动智慧培训平台中进行应用。
在推荐系统中,主要需要通过用户行为数据或对资源的评价来判断用户对资源的喜好程度,并以此作为模型,对具有相似喜好的用户进行资源推荐,这就需要基于协同过滤推荐算法来实现。基于协同过滤推荐在新闻推荐、电影推荐、商品推荐、广告推荐中等被广泛使用[5]。基于协同过滤算法的主要流程是首先根据用户的行为日志或对资源的评价建立用户模型或资源模型,再根据相似度算法寻找相似用户或相似资源,形成推荐路径,最后依据推荐路径对目标用户进行基于协同过滤的资源推荐,实现个性化推荐结果。基于协同过滤推荐的相似度计算方法主要有皮尔森相关系数计算方法、余玄相似度计算方法和修正余玄相似度计算方法等[6]。
基于协同过滤推荐主要有基于用户的协同过滤推荐和基于资源的协同过滤推荐。基于用户的协同过滤推荐是根据不同用户对相同资源具有相似的评价从而建立相似用户模型,认为其需求喜好相近,继而将相似用户A 曾经选择过而相似用户B 还没有选择的资源推荐给相似用户B,从而实现个性化推荐。基于资源的协同过滤推荐则是通过资源模型来计算资源的相似度,并将相关资源推荐给选择了与其高相似度的其他资源的用户。一般推荐系统中,会将两种推荐结合使用,以提高推荐的有效性和准确度。
协同过滤推荐需要根据用户对资源喜好度来计算用户或资源的相似度,一般推荐系统中最直接最简单的方法就是利用用户对资源的评分作为计算相似度重要参数,例如影视推荐系统中对影视作品的评分。在智适应学习系统中,由于学习资源丰富,资源个数众多,特别是基于移动学习资源碎片化后,学习用户一次学习往往需要浏览多条资源,再加上学习的枯燥性和压力性,要求学习用户对每条浏览过的学习资源进行再评分非常不现实,所以无法通过直接评分的方式来计算学习用户对学习资源的喜好。但学习用户在对资源进行学习后,会留下学习行为日志,例如资源的点击量、资源的浏览时长、资源的收藏情况、资源的下载情况等等,这些学习行为日志在很大程度上能代表学习用户对学习资源的喜好情况。因此系统可以先对用户学习行为进行加权量化计算用户喜好度值[6],再计算相似度进行资源推荐。
(1)计算用户喜好度量化值
收集并获取智适应学习系统中学习用户的行为记录,确定用于量化计算的行为特征因子x,获得行为特征向量X={x1,x2,x3,…,xn},对每个行为特征赋值量化,取值 Ci,Ci∈ [0,10],同时对每个行为特征加权 Qi,并且:
由此,可计算出某个行为特征因子xi的喜好量化权值W(xi):
系统根据用户所有特征因子的喜好量化权值求和计算出用户A 对资源j 的喜好值WA,j,并以此计算用户喜好度值。
WA,j∈ [0,10],值越高,说明用户 A 对资源 j 的喜好度越高。
(2)计算学习用户相似度
利用公式(3)可以计算出学习用户对学习资源的喜好度量化值,假设用户A 对资源i 的喜好度值为WA,i,用户A 对所有资源的喜好度平均值为,用户 B 对资源i 的喜好度值为WB,i,用户B 对所有资源的喜好度平均值为利用修正的余玄相似度计算方法[7],可以计算出用户A 和用户B 的相似度:
其中CA,B指用户A 和B 有共同学习行为的资源集合,CA为用户A 所有具有学习行为的资源集合,CB为用户B 所有具有学习行为的资源集合。SA,B值越高,说明其相似度越高,系统以此构建学习用户相似度模型。
(3)计算资源推荐度
要给学习用户A 推荐资源,先通过学习用户相似度模型计算出与A 有学习高相似度的其他用户群体K,记为U(A,K),对K 群体已经有学习行为而学习用户A 还没有学习行为的学习资源i 相对于学习用户A的推荐度可以用公式计算:
SA,B为学习用户 A 和 B 的相似度,WB,i为用户 B 对学习资源i 的喜好度值,U(i)为对学习资源i 有学习行为的学习用户群体。系统根据推荐度值建立学习资源推荐列表,最终推荐给学习用户A,实现个性化推荐。
图1 基于用户行为量化的协同过滤推荐流程
在智适应学习系统中,有效应用基于协同过滤推荐的前提是要有足够多的学习用户学习行为记录,用以量化并计算相似学习用户群体。然而在现实中,大多数智适应学习系统中有效的活动学习用户占比较少的部分,其产生的学习行为记录稀少,而且随着学习系统功能的更加完善、覆盖面的更加广泛,活动学习用户中有交集的学习行为记录更少,这大大降低了基于协同过滤推荐的效率和准确度,这便是基于协同过滤推荐中存在的数据稀缺问题[8]。同时,在针对新注册用户时,由于其初始使用而没有任何学习行为记录,基于协同过滤推荐更是无法计算其相似学习用户,同样,当系统中新添加了学习资源时,由于这些新的学习资源还没有任何学习用户使用过,也就没有针对这些学习资源的学习行为记录,基于协同推荐也无法将这些资源有效地推荐给有需要的学习用户,这便是基于协同过滤推荐存在的冷启动问题[8]。基于协同过滤推荐的数据稀缺和冷启动缺陷会给智适应学习系统中的个性化资源推荐带来不利影响。为了有效解决数据稀缺和冷启动的缺陷问题,可以在基于协同过滤推荐的同时组合使用基于特性和内容的标签推荐来实现全面个性化学习推荐。
基于特性和内容的标签推荐来实现个性化学习推荐,可以有效解决智适应学习系统中当新注册学习用户登录或学习行为日志偏少用户登录时,因学习日志缺少,系统无法根据其过往行为来分析和判断其学习偏好而无法进行基于协同过滤推荐的问题。智适应学习系统在学习资源建设时,需对每个资源设置主要标签,例如课程名、知识点、授课教师、关键字等,以此来建立资源的特性和内容特征,同时在注册新学习用户时,为每位学习用户建立初始学习偏好标签,如专业、课程等,以此来建立学习用户初始学习偏好模型。通过对学习偏好模型和资源的特性和内容特征进行相似度计算,实现个性化资源的推荐。
图2 基于特性和内容标签推荐的个性化学习推荐流程
学习用户的初始学习偏好标签和学习资源标签均包含两个方面,一是特性标签,代表资源的分类,例如课程名、授课教师、专业对象等,一是内容标签,代表具体的内容特征,例如内容关键字等。特性标签的推荐约束优先于内容标签的推荐约束。系统进行标签推荐时,首先匹配特性标签,当学习偏好中的特性标签和资源的特性标签直接匹配上时,系统将其标记为优先推荐大类,然后在此基础上,再进行内容标签的相似度计算,得出更精确的推荐路径。
取数据库中用户初始学习偏好内容标签,建立特征向量 S={t1,t2,t3,…,tn},其中 S 表示学习用户,tn表示第n 个标签特征。系统为每个标签特征赋权重,权重向量M={wt1,wt2,wt3,…,wtn},wtn表示标签 tn的权重。学习用户的初始学习偏好特征向量T(s)可以通过求所有标签权重的平均值获得[9]。
资源的内容标签中相同的标签在不同的资源中具有的权重应有不同,例如关键字“算法”在编程类学习资源中的权重与在管理类学习资源中的权重就明显不同,故系统不能对每个关键字标签的权重进行初始化赋值。词频-逆向文件频率(TF-IDF)是用来计算学习资源内容标签的特征向量权重的比较好的方法[10]。
词频TF(ti,cj)表示学习资源cj中标签ti出现的频次mij与所有各学习资源中ti出现的最大频次Max(mi)的比值,取值范围为[0,1],算式如下:
逆向文件频率IDF(ti)通过取学习资源总数K 与出现标签ti的学习资源数量k(ti)比值的对数来表示,算式如下:
学习资源cj中标签ti的TF-IDF 权重w(ti,cj)表示为:
学习资源cj的标签权重值W(cj)可以表示为特征向量:
采用余玄相似度计算学习用户初始学习偏好特征向量T(s)和学习资源特征向量W(cj)进行相似度,相似度越高,说明推荐度越高,以此来取最佳的推荐路径,进行资源推荐。余玄相似度计算公式为:
基于特性和内容的标签推荐算法能有效的解决数据稀缺和冷启动带来的资源推荐困难问题,能够对新注册用户以及少学习行为学习用户的智适应学习进行比较准确的个性化资源推荐,享受智慧学习带来的便捷和效率。相比传统的基于内容推荐算法,基于特性和内容的标签推荐算法因标签的提前设定从而大大降低了数据挖掘和分析计算的压力,大大提高了算法的运算效率,降低了平台的运行能耗,同时特性标签的应用,有利于学习资源的精确分类,对单纯需要特性标签推荐的学习用户可以实现直接的分类推荐,特别对音视频、动画、虚拟实验类等非纯文本学习资源的推荐有效,对基于内容标签推荐的学习用户,也能较大范围地提高资源推荐的准确性。
建筑业工人移动智慧培训平台是一套针对建筑行业从业工人职业教育和技能培训的智适应系统,系统面向建筑业工人,主要提供现场管理、安全生产、岗位技能、特种作业、技能鉴定等初、中、高级的理论知识培训和技能操作模拟实验培训。培训平台主要有智慧学习、练习测试、系统管理三大块功能,分别提供移动远程个性化学习、在线远程练习及模拟测试、学习资源和用户管理以及系统管理等操作。建筑业工人由于普遍存在知识水平低、学习判断和选择能力弱等问题,在传统的在线自主学习过程中存在较大的困难,无法达到较好的学习效果,因此个性化学习推荐尤为重要。我们分别在建筑业工人移动智慧培训平台的智慧学习和练习测试模块应用了基于协同推荐加基于特性和内容的标签推荐的组合推荐方法。
在智慧学习模块中,系统主要通过学习行为日志中的学习资源的点击次数、浏览时长、收藏情况和点赞情况来作为培训用户培训偏好度量化计算的主要因子。各因子分别量化为0~10 之间的数值,其中点击次数、浏览时长根据具体数量折算,而收藏情况和点赞情况设成是非条件,有收藏和点赞则获10 分,没有则获0分,同时对每个因子加权分别为 0.3、0.3、0.2、0.2,最后计算出培训用户的喜好度值,并以此作为计算相似度的依据,通过基于协同的过滤推荐来实现个性化资源推荐。系统同时对培训资源设置特性和内容标签,特性标签主要包括类别、专业方向、科目、所属知识点、培训教师、适用对象等,内容标签主要为学习内容中的具体关键字,例如安全法规、BIM、CAD、市政施工等,培训用户在注册时,要求根据其主要的培训方向和需求选择相应的特性和内容标签,存入信息库,系统根据培训用户和培训资源对应的特性和内容标签,通过基于特性和内容的标签推荐实现个性化推荐。
练习测试模块主要涉及试题的抽取及组卷,在线练习测线系统一般通过随机、基于遗传或蚁群算法等完成组卷,单纯依赖系统中提前设置好的规则,缺乏个性化特征。建筑业工人移动智慧培训平台的练习测试模块中通过在遗传算法中组合使用个性化推荐算法进行组卷,将通过基于推荐算法计算出的推荐值作为遗传算法中的约束条件之一,从而实现个性化的组卷。系统将试题的练习次数、出错率、重要性权重、对应知识点的学习用户学习偏好度值等作为试题推荐度值计算的重要因子,计算出其推荐度值,再配合时长约束、难易度约束、题型约束、分值约束等条件,运用遗传算法进行初始化、选择、交叉和变异,生成符合组卷策略并满足个性化需求的试卷。
通过对建筑业工人移动智慧培训平台的使用调查发现,其中89 名系统新注册用户初始使用学习资源推荐准确度高达95.2%,且注册时特性和内容标签设置越全面其推荐准确度越高;306 名经常活动学习用户个性化学习资源推荐准确度为89.7%;练习测试环节通过个性化推荐遗传算法组卷和常规遗传算法组卷对比实验,59.8%的学习用户表示针对性有所提高,27.1%的学习用户表示无法判断,其余表示没区别。从数据中可以看到,基于协同推荐加基于特性和内容的标签推荐的组合推荐在智适应学习平台的个性化学习资源推荐中效果明显。
智适应学习系统中学习资源高效、准确的个性化推荐,是其“智慧学习”的重要表现,个性化学习资源推荐能满足学习用户多元化的学习需求,提高学习效率和学习质量。个性化学习资源的推荐是当前在线学习平台研究的主要方向之一,推荐算法是实现个性化推荐的关键。单纯采用基于协同的过滤推荐存在数据稀缺和冷启动的缺陷,本文研究在基于学习用户学习行为记录量化的协同过滤推荐的同时组合使用基于特性和内容的标签推荐方法,以提高个性化推荐的质量。通过在建筑业工人移动智慧培训平台中的智慧学习模块和练习测试模块中的应用分析,证明文中研究的方法确实有效。本文对推荐算法本身的改进研究不足,下一步将继续研究改进推荐算法和智能算法联合提高推荐效率的问题。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!