基于模糊聚类的教学资源自适应推荐研究*

时间：2024-05-07

□黎孟雄郭鹏飞

基于模糊聚类的教学资源自适应推荐研究*

□黎孟雄郭鹏飞

随着教学资源规模的急剧增长,常规的资源检索和传统的推荐方法其反馈结果的精确性和个性化程度越来越低,文章提出了基于模糊聚类的推荐方法,并结合协同过滤、智能分词和移动Agent技术,对目标用户的检索期望进行预测和推荐,实验结果证明,其推荐质量和精度得到了较大的提高.

教学资源;模糊聚类;协同过滤;自适应推荐

引言

计算机多媒体技术和网络技术的快速发展推动了我国教育信息化的进程.随之而来的是教学资源的蓬勃建设,使得网络教学资源的数量变得极为庞大.比如,仅以国家精品课程资源网(www.jingpinke.com)的数据为例,截止2011年9月,该网站一共收录课程两万多门,各类教学资源的数量共超百万个.另外,各个地方教育机构和学校除了在继续扩充原有教学资源库之外,在目前云计算技术风起云涌的情况下也开始大力建设教学资源云,而云教学资源库内的资源数量将更加巨大.虽然网络教学资源规模的迅速增长给用户带来更多选择机会,但"资源过载"和"资源迷航"现象也使得用户搜索所需资源的成本越来越高.

因此,智能教学资源自适应推荐技术的研究对于高效地教学资源呈现和精确地资源获取起着至关重要的作用[1].目前国内外在如何提高资源获取的智能方面,代表性的技术主要有:自动分词、数据挖掘、协同过滤以及遗传算法等.

自动分词作为文本分类、信息检索、信息过滤等信息处理中的关键技术和基础性工作,一直是信息检索领域的研究热点.相关学者提出了许多自动分词的算法,大致可归纳为:词典分词方法、统计分词方法、理解分词方法和组合分词方法,其中比较成熟和易于实现的是词典分词方法[2].由于信息资源描述中自然语言复杂灵活,知识表示困难,在实际应用时往往需要和其它技术相结合以提高检索精度.

数据挖掘技术融合了数据库、机器学习、统计学和人工智能等多学科技术去挖掘感兴趣的信息资源,这些资源也许是传统检索技术未能检索的、隐含的、事先未知的和潜在有用的信息.

协同过滤技术是基于用户所表达出的显式和隐式的偏好来查找用户或资源的相似邻居,据此产生推荐结果[3][4].该技术实施时数据表示简单、算法易于实现,从而便于推广.但该技术存在稀疏性、冷启动等问题,在使用过程中需要加以改进.

遗传算法作为一种全局随机性搜索方法,具有很强的鲁棒性,在很多领域都得到了一定的应用[5].然而,该算法也存在一些明显的问题,如搜索空间过大、收敛速度慢等.

上述几种技术在资源获取领域尽管具有一定程度的智能性,但随着教学资源库的更新和用户对资源目标兴趣的转移,资源检索后的反馈呈现的准确率和满意度以及系统的个性化服务等方面还会存在一些缺陷.

针对目前对教学资源查询反馈结果的精确性和个性化服务较低的问题,文章将模糊聚类技术和协同过滤算法相结合,并引入智能分词技术和移动Agent技术来设计教学资源自适应推荐模型,使系统更具有智能性,能为用户提供个性化服务,动态调整并呈现教学资源检索内容.

自适应推荐模型设计

模糊聚类是利用模糊数学中相似性关系给目标对象进行分类的一种方法[6].自适应推荐模型的核心体现在用户模糊聚类部分,即通过计算用户对教学资源的兴趣度建立用户个性化模型,采用聚类技术,将具有相似偏好的用户进行聚类[7].根据教学资源之间在相似群组的相似性来预测用户对未知教学资源的偏好,在此基础之上再完成基于用户的协同过滤推荐算法,并依据群组对其满意度进行排名,产生Top-N的教学资源推荐集.基于模糊聚类的自适应推荐模型如图1所示.

工作流程如下:

(1)通过验证服务后系统根据用户模型分析用户提交的访问需求,生成代表用户请求的用户A-gent,然后系统根据用户Agent携带的信息对用户输入的自然语句进行智能分词处理.

(2)抽取教学资源库中相关文档特征,形成若干相关联的特征关键词,然后利用分析Agent对分词模块切好的用户关键词和特征关键词的隶属度进行分析.

(3)系统根据基于阈值的模糊贴近度算法和基于自学习的检索规则在教学资源库中进行智能检索,获得初步教学资源检索集.

(4)学习Agent在客户端隐式采集用户在线行为信息,即复制、下载、打印等操作以及资源页面浏览时间等来挖掘用户的兴趣和偏好,据此不断更新用户模型.

(5)采用聚类技术,将具有相似偏好的用户进行模糊聚类,在(3)中初步资源检索集的基础上采用协同过滤推荐算法,生成Top-N的教学资源推荐集.

(6)对教学资源检索结果先进行清洗和解析,最后以XML形式反馈呈现给用户,并与学习Agent交互进行机器学习来优化用户模型并修正分词词典.

关键技术及其算法

1.基于兴趣度的用户模糊聚类

自适应推荐目的是为不同检索意图的用户提供个性化的教学资源,而获取用户检索意图是最终实现该目的至关重要的前提条件.在常规网络资源系统中,用户表现出来的资源检索意图一般用能反映其兴趣特征的评分数据表示,比如各类电影、音乐资源网站的推荐系统都采取用户主动评分体系.但在教学资源类推荐系统中,如果采用显式评分来表述资源的用户兴趣度,会降低系统的易用性和便利性,同时,用户对目标资源的兴趣偏移也不能及时采集.其实,用户的在线行为往往就蕴涵了其对目标教学资源的兴趣度.比如,十分钟的教学资源页面用户只花了不到一分钟就浏览完了,则表示用户对当前教学资源不满意或兴趣度较低.如果存在下载、打印、收藏或保存操作,则表示该用户对当前教学资源比较满意或兴趣度较高.

(1)构建教学资源兴趣度隶属函数

建立用户个性化模型的重点在于用户对教学资源的兴趣度隶属函数的构建.隶属函数是用模糊集合去阐述和分析某个模糊现象,即通过隶属函数来描述对象元素属于某集合的程度高低.隶属函数的恰当构建是表现模糊概念的关键,虽然确立隶属函数的方法很多,但各有局限性,至今仍无规律可循,主要依据领域知识相关实际经验和常理来给予隶属度.一般用[0,1]间的一个数值来表示隶属度,其值越接近1,意味着隶属程度越高,反之就越低[8][9].

设教学资源A的属性集论域D={d1,d2,…, dn},资源属性di对于教学资源A的隶属函数为:

μA(di)={1(di存在下载、保存和打印等高兴趣度在线行为)|di:to/tg(用户对资源页面浏览时间占该资源正常最大浏览时间的比值)|0(用户对教学资源页面无点击等零兴趣行为属性di).

(2)资源用户的模糊聚类

对教学资源用户进行模糊聚类的主要原理是通过用户描述文件,即用户对目标教学资源的兴趣度高低情况进行用户聚类.用户的兴趣度描述可以用矢量空间模型表示,聚类起始时先选择一个有代表性的用户作为该类用户的聚类中心,根据计算当前用户和聚类中心的相似度来不断动态调整聚类中心,直到满足预设的阈值,最终产生目标教学资源用户的模糊聚类.相似度的计算公式:

其中,μk(W)为用户w对教学资源模糊簇k的兴趣偏好值,为用户w对所有教学资源模糊簇的平均兴趣偏好值.用户v对教学资源的表示与用户w一致.

2.基于模糊聚类的协同推荐算法

算法描述:基于教学资源用户模糊聚类的协同过滤推荐算法.

输入:待进行教学资源推荐的当前用户User(i)和相关教学资源需求用户集U={u1,u2,u3,…,un,…}.

输出:当前用户User(i)的待推荐教学资源集R= {rs1,rs2,rs3,…,rsn}.

步骤:

Step1:从学习Agent获得待聚类用户的用户模型,对描述教学资源兴趣度的相关数据进行分析和预处理;

Step2:初始化用户模糊聚类中心相关参数数据,设置最大类别数目SortMax、实际类别数目SortNum、模糊聚类中心阈值ε(ε>1)、当前用户User(i)的最近邻用户数量N;

Step3:根据相似度计算公式Sim(w,v)动态调整用户模糊聚类中心;

Step4:根据预设的阈值ε,确定当前用户User(i)所属的聚类,再基于用户-教学资源矩阵利用余弦相似性度量方法计算相关教学资源需求用户集U中的用户和当前用户User(i)的相似度,查找该聚类中和User(i)兴趣最相似的N个用户;

Step5:在聚类用户群组的兴趣中找出待推荐用户User(i)没有发现但潜在可能感兴趣的教学资源集R={rs1,rs2,rs3,…,rsn,…};

Step6:根据聚类用户组对上一步产生的R中各教学资源的兴趣度,分析计算出待推荐用户User(i)可能最感兴趣的Top-N的教学资源推荐集;

Step7:将Top-N教学资源推荐集清洗和解析后以XML形式反馈给待推荐用户User(i);

Step8:结束.

3.Top-N教学资源推荐集的计算

用户模糊聚类中心确定以后,按相似度选择待推荐用户所在聚类中与其最近邻的N个用户,并由这N个近邻用户对目标教学资源的兴趣度来完成待推荐用户对目标教学资源r的预测,计算公式:

期中sim(w,v)表示用户w和其最近邻用户v的相似度,SAw表示用户w的平均兴趣度,SA'v,r表示近邻用户v对目标教学资源r的兴趣度.按此公式计算得到教学资源集R内所有教学资源rsi预测值,然后依S(w,r)值从大到小取前N个教学资源产生Top-N推荐集{rs1,rs2,rs3,…,rsn}.

实验分析

1.实验数据集和度量标准

为了验证本文提出的推荐方法的有效性和推荐质量,实验数据集采用连云港市电教馆基础教育教学资源库.资源内容覆盖中小学所有学科近10TB容量,注册用户9千多人,日访问量1千多人.通过整理,收集了300个用户对1600个教学资源的31000条兴趣度评价数据,数据集的稀疏级别为1-31000/ (300*1600)=0.9354.评价值为0到5的整数,数值越高,表明用户对该教学资源的兴趣好评度越高.

推荐质量的度量标准主要有统计精度度量方法和决策支持精度度量方法两类.本文采用平均绝对偏差MAE来衡量推荐方法的预测精度.平均绝对偏差MAE即计算资源用户对资源兴趣度的实际值和预测值之间的偏差绝对值的平均,MAE越小,说明推荐预测的精度越高[10].设用户对教学资源的兴趣度预测值数据集为{p1,p2,…,pn},实际值数据集为{q1,q2,…, qn},则:

2.实验过程及结果分析

随机抽取上述实验数据集中的10000条数据记录,将该数据集的70%作为训练数据集,30%作为测试数据集.

Step1:首先把训练数据集根据教学资源的所属学科进行分类,将其分成9个学科类别.

Step2:然后按学科类别分别构建9个用户-教学资源矩阵,并在每个矩阵中根据相似度计算公式Sim(w,v)计算用户之间的相似度.

Step3:根据用户相似度,预测用户对教学资源的兴趣度评分数据,并按预测值降序排列.

Step4:重复Step2和Step3,直到找出预设的目标用户的最近邻居数量及其对教学资源的兴趣度评分预测值.

Step5:所有数据处理完毕后,就可以把计算结果与测试数据集进行比较,计算MAE的值.

实验过程中,教学资源目标用户的最近邻居个数从20增加到50,步长为5,分别计算传统协同过滤推荐方法和本文提出的基于模糊聚类的推荐方法的MAE作对比,实验结果如图2所示.

从实验结果可以看出,基于模糊聚类的推荐方法比传统的协同过滤推荐方法具有更小的MAE值,显示教学资源推荐预测的精度和质量更好.这是因为传统的协同过滤推荐算法是在所有的用户空间上进行目标用户的最近邻居的搜索,而基于模糊聚类的推荐算法是在聚类后的用户空间上进行搜索,因此推荐的精确度才大为提高.而且随着目标用户最近邻居数量的增多,他们的MAE的差值越大,表明基于模糊聚类的推荐方法的推荐预测精度和质量优势就更加明显.

另外,通过进一步加大实验数据集的测试,发现正是由于基于模糊聚类的推荐方法考虑了聚类用户在相关教学资源集上的兴趣相似性,缩小了目标用户最近邻居的查找范围,对传统的协同过滤推荐方法所面临的稀疏性问题、冷启动问题和实时推荐速度也都能得到较大地改善.

结束语

随着教育信息化的加快,具有智能的自适应推荐已成为教学资源建设和应用中的一个重要组成部分.本文为针对由于教学资源数量增多导致常规的资源检索和传统的推荐方法其反馈结果的精确性和个性化程度较低的问题,提出了基于模糊聚类的协同过滤推荐方法,实验结果证明,其推荐质量和精度得到了较大的提高.另外,本文还引入智能分词技术和移动Agent技术来增强系统在推荐过程中自适应不同用户的智能,提高了资源用户使用满意度.不过,实验也表明,该推荐算法随着目标用户最近邻居数量的增多,其资源推荐时间效率上会有一定程度的降低,虽然这个过程可以离线计算.所以,未来的工作将在提高资源推荐质量的同时有效提高算法的推荐实时性上作进一步研究.

[1]许海玲,吴潇,李晓东,等.互联网推荐系统比较研究[J].软件学报, 2009,20(2):350-362.

[2]奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45.

[3]Herlocker J,Konstan J,Terveen L,et al.Evaluating Collaborative Filtering Recommender Systems[J].ACM Trans on Information Systems,2004,22(1):50-53.

[4]Sarwar,B,Karypis G,Konstan J.Item-based collaborative Filtering recommendation algorithms[C].Proceeding of the Tenth International World Wide Web Conference,2001.285-295.

[5]FATEN H,NAWWAF K,RABABW.Genetic algorithms for feature selection and weighting a review and study[C].Proceedings of the SixthInternationalConferenceonDocumentAnalysisand Recognition.Washington,DG IEEE Computer Society,2001:1240-1244.

[6]陈水利,李敬功,王向公.模糊集理论及其应用[M].北京:科学出版社,2005:95-125.

[7]Wolf J,Aggarwal C,Wu K L,et al.Horting Hatches an Egg:A New Graph-Theoretic Approach to Collaborative Filtering[C].Proc of the 5th ACM SIGKDD Conf on Knowledge Discovery and Data Mining,2009:201-212.

[8]Chen S Y.Fuzzy recognition theoretic model[J].Journal of Fuzzy Mathematics,1993,(2):21-26.

[9]George Q.Huang,Zuhua Jiang,K L Mak,FuzzySTAR:Fuzzy Set Theory of Axiomatic Design Review,International Journal of Artificial Intelligence in Engineering Design,Analysis and Manufacturing: AIEDAM,2002,16(4):291-302.

[10]SARWAR B,KARYPIS G,KONSTAN J.Item-based collaborative filtering recommendation algorithms[C].10th International World Wide Web Conference.Hong Kong ACM,2001:285-295.

郭鹏飞,博士后,上海市应用数学和力学研究所(200072).

责任编辑平果

TP319

1009-458x(2012)07-0089-04

*资助项目:江苏省高校优秀中青年教师境外研修项目资助.

2011-12-30

黎孟雄,副教授,硕士,连云港师范高等专科学校计算机系(222006).