时间:2024-08-31
王治国 ,万本庭,王 慧
(1.暨南大学 网络与教育技术中心,广东 广州 510632;2.江西财经大学 软件与物联网工程学院,江西 南昌330013;3.广州市工贸技师学院 教研室,广东 广州510632)
移动情景学习是在线学习和情景学习的融合。移动学习是移动技术与数字化学习技术 (E-Learning)发展相结合产生的一种新型数字化学习形式[1]。情境学习是有关人类知识本质的一种理论,它是研究人类知识如何在活动过程中发展的,特别是人们如何去创造和解释他们正在做什么的表征;我们在一个基本的社会情境中对我们的活动进行构想,进而限制我们的思维和言行,我们的行为植根于我们作为一名社会成员的角色之中[2]。随着技术的发展、理念的更新,移动情景学习方式越来越多地成为知识获取的途径。面对海量的学习者和资源,在移动情景学习环境下,如何可以在遇到问题时快速准确找到合适的专家资源进行咨询,已经成为一个迫切需要解决的问题。
上世纪90年代,电子商务在欧美快速发展,推荐技术在电子商务和信息检索领域得到长足的发展。目前推荐系统采用的算法有关联规则、基于内容的推荐、协同过滤、混合推荐。协同过滤是基于用户喜好和项目相似性进行筛选推荐的[3],该算法于1992年由Goldberg等学者在研究报告中正式提出[4]。1995年3月,卡耐基·梅隆大学的Robert Armstrong等人在美国人工智能协会上提出了Web Watcher(个性化导航系统);1996年,Yahoo推出了个性化入口My Yahoo;1997年,AT&T实验室提出了PHOAKS和Referral Web(均为基于协作过滤的个性化推荐系统);2000年,NEC研究院的Kurt等人为搜索引擎CiteSeer增加了个性化推荐功能;2001年,纽约大学的Gediminas Adoavicius和Alexander Tuzhilin实现了个性化电子商务网站的用户建模系统1Pro[3]。
随着推荐技术在电子商务推荐领域的地位日益凸显,国内越来越多的学者和专家涉足这一领域,同时提出很多建设性的意见和建议。如中山大学的黄创光、印鉴等人提出了不确定的近邻的协同过滤推荐算法[5];清华大学的邢春晓、高凤荣等提出适应用户兴趣变化的协同过滤推荐算法[6]。系统推荐领域在国内发展较晚,但在一定程度上也取得了不少研究成果。但是,目前的推荐算法主要集中在电影和商品领域,在专家推荐领域涉及较少,为了满足不断发展的知识服务领域,本文提出了基于移动情景学习下的专家推荐模型,方便用户在海量的专家资源中快速精准地找到合适的专家,并进行精准推荐。
基于用户的专家推荐是通过分析目标用户的历史数据,获取用户浏览、咨询、评价专家的信息,获取用户的兴趣信息;分析样本中用户的兴趣信息,比对目标用户和样本用户兴趣,计算目标用户的相似用户,通过相似用户浏览、咨询、评价的专家中过滤符合目标用户的专家,进行专家推荐。
基于用户的专家推荐是通过分析目标用户的历史数据,获取用户浏览、咨询、评价专家的信息,获取用户的兴趣信息;分析样本中用户的兴趣信息,比对目标用户和样本用户兴趣,计算目标用户的相似用户,通过相似用户浏览、咨询、评价的专家中过滤符合目标用户的专家,进行专家推荐。
基于专家的推荐是分析用户的历史浏览、咨询记录,获取用户浏览、咨询专家信息,通过专家(用户浏览、咨询)和专家库进行比对,寻找相似专家,从相似专家中获取推荐专家,进行专家推荐。本文的专家是指医学领域的专家,医学领域专家和教育领域的专家有很多相似性,对学历、专业、服务态度具有较高要求,并且服务领域需要高度细化。因此,本文选择医学领域的专家作为被推荐对象,并且可以将该种研究模型迁移到教育领域。
(1)用户兴趣指标建立
在移动情景学习下的专家推荐过程,用户指标项的建立是最为基础的一步,用户兴趣指标的建立,首先是对用户兴趣指标的筛选。影响专家推荐的用户要素有很多,一是用户自身的信息,如性别、年龄、职业、学历、工作、所在地、所患疾病;其次是和医生的交互信息,如服务态度、疗效满意度、服务费用、评价时间等。
用户的兴趣指标分为用户的属性指标和用户关系要素。根据主成分分析法,用户属性要素有用户性别信息(US)、用户所患疾病用信息(UD)、用户所在地信息(UA)等;用户的关系要素有关注专家(UDO)、满意度(USa)、治疗收费(UF)、评价时间(UT)等相关要素。用户和用户兴趣指标的数据库包含n个用户的集U={U1,U2,U3,…,Un}和 m 个用户兴趣指标 I={},用户兴趣指标矩阵可用一个N×M的矩阵表示R(n×m),如公式1所示。
其中矩阵中n行代表n个用户,m列代表m个用户兴趣指标项,Rnm代表第n个用户的第m个兴趣指标的值,用户兴趣指标的量化表如表1所示。
综上所述,影响专家推荐的用户要素有:用户性别、所在地、疾病、是否关注相同专家、满意度、治疗费用、评分时间等。
表1 用户兴趣指标量化表
(2)专家资源指标建立
在用户访问平台时,系统如何高效精准地将专家推荐给用户,影响系统推荐的专家因子有专家的临床职称、学术职称、所在医院、医院级别、科室、擅长、患者投票、文章总数、平均每天访问人数、昨日访问人数、感谢信数量、是否可咨询等因素。
根据主成分分析法得出:医生的临床职称和学术职称呈基本的正相关,所以本文将临床职称作为一个主成分来考虑。分析现有数据中的态度满意度和疗效满意度数据,可知专家态度满意度和疗效满意度呈正相关性。因此,用户对专家态度满意度和疗效满意度两个指标整体用满意度这个指标来表示。
影响专家推荐指标中的昨日访问次数、平均访问次数、总患者数、总投票数、感谢信数量、专家总文章数等因素,根据已有数据绘图得到图1所示的平均访问次数走势图。
图1 平均访问次数走势图
根据以上分析得出影响专家推荐的专家核心要素有:专家临床职称(DC(Doctor Clinical title))、专家所在医院(DH)、专家所在科室(DD)、专家是否擅长(某一疾病)(DB)、收费标准(DF)、满意度(DS)、平均访问次数/天(DM)、是否可咨询(Dcon)等。通过数据散点图和实际专家属性,专家资源指标量化数据表如表2所示。
表2 专家资源指标量化数据表
在传统的协同过滤推荐算法中,主要集中在基于内存推荐中的基于用户或基于项目的单一推荐模式,这种推荐模式在数据稀疏或者项目(专家)冷启动时,在推荐准确度和精度上都不是那么令人满意。而基于用户和基于项目(专家)的组合推荐算法,既可以满足在数据稀疏下的准确推荐,同时又可以提高推荐的多样性。因此,在推荐领域得到广泛应用。
基于协同过滤的专家推荐算法流程:首先收集用户的偏好信息,对用户关注和评价的项目(专家)进行分析,提取关键字,从而建立用户信息集合和训练专家库集合;其次通过用户的属性信息和关系信息,计算用户的邻居,将用户邻居关注的专家推荐给用户;同时,计算目标用户关注的专家的邻居,将和目标用户关注专家相似的专家推荐给用户,具体算法流程图如图2所示。
图2 协同过滤专家推荐算法流程图
协同过滤相似性计算分为两部分:
(1)基于用户的相似性计算
①用户信息格雷编码
用户信息通过格雷编码后,计算各个用户之间的海明距离,用海明距离的大小来表示用户之间的相似性。用户指标格雷编码对照表如表3所示。例如用户(2XVRBZ6LP2、云南、女、高血压高血脂、很满意、200、2015-03-03 21:11、7)和用户(84HZH62NPZ、江西、女、高血压、很满意、300、2015-09-06 14:02、7)的格林编码分别是000000001101101001001和001000001101100001001。
表3 用户指标格雷编码表
根据用户信息表分析,影响专家推荐的用户信息指标相对单一,适合二进制编码,然后对不同取值进行格雷编码,并且依次串起来,形成二进制编码串;通过计算的海明距离来度量用户之间的相似度;根据数据分析得到相同的疾病更容易关注相同的专家,关注相同专家的用户,所患疾病相似或者相同。则在权重分配中患有相同疾病的权重为0.2,关注相同医生的权重为0.3,其余的分别为0.1。其权重为n个因子的平均值。则权重如公式2所示:
则得到两个用户之间的海明距离如公式3所示:
分析得知,DHM(海明距离)越大,用户之间的相似性越低,DHM越小,则用户之间相似性越高。
③相似度计算,如公式4所示:
(2)基于项目(专家)的相似性计算
①数据采集:根据移动情景平台的历史数据,随机获取30位专家的推荐要素数据,形成推荐专家训练集。
②数据量化处理:将采集到的原始数据,根据主成分分析法,获取相关的指标,并且对专家指标数据量化处理。
③指标数据归一化处理:原始变量的标准化采集数据8维随机向量,如公式5所示:
N 个样品 Di=(DiDC,DiDH,…DiDS),i=1,2…8。构造样本矩阵,对样本举证进行标准化处理,如公式6所示:
以高血压领域的专家推荐为例,随机抽取10个是有高血压症状的患者,同时,从数据库中获取一名高血压患者近期关注过的医学专家信息,将该高血压患者和关注的医学专家信息分别作为基于用户和基于项目的协同过滤专家推荐模型的目标数据,同时,随机筛选出30个用户信息和30个专家信息作为训练集。通过海明公式计算用户之间的相似性,通过余弦相似法,计算项目(专家)之间的相似性,进行专家推荐。
(1)基于用户的协同过滤推荐
①随机选取10个目标用户,且每个用户和医生关系信息条数大于10条,这样数据更具有真实性和代表性,其中的一个目标用户信息如表4所示。以这个目标用户信息为例,计算用户的推荐专家,其他用户类似。②取相似的目标用户,通过疾病寻找患有或者对该疾病比较关注的用户,通过疾病指标模糊查询和匹配对高血压和类似高血压等疾病感兴趣的用户,随机获取30个训练数据集。③目标用户相似邻居集数据量化处理。④目标用户相似邻居集数据进行格雷编码,通过对目标用户格雷编码计算得到海明距离。⑤基于用户的专家推荐最近邻居集合如表5所示。⑥从用户和医生对照表中分析得到1、24、33、38感兴趣的专家是专家7号,所以推荐专家是专家7。
表4 目标用户信息表
表5 目标用户最近邻居集合
(2)基于项目(专家)的协同过滤推荐
①专家数据量化处理后,得到专家数据量化信息。
②通过对专家量化好的数据进标准化处理,得到标准化的专家数据信息,如表6所示。
表6 专家信息标准化表
表7 专家相似度信息表
(3)实验结果
统计这10个目标用户在随机推荐、基于用户推荐、基于项目(专家)、基于协同过滤推荐下对专家 (每个用户的专家评分,不低于10条)的评分,并且计算对所推荐专家的评分均值,如表8所示四种推荐算法下用户对推荐专家的评分均值。
表8 四种推荐算法下用户对推荐专家的评分均值
根据表8数据绘制,四种算法专家推荐用户评分对比如图3所示,分析图表数据的随机推荐的评价相对较低,基于用户和基于项目的专家推荐相较随机推荐有一定改善,整体推荐效果要好些,通过图5可知,其中协同过滤推荐在四种推荐中,用户评分均值最高,效果最好。
图3 四种算法专家推荐用户评价对比图
图4 四种算法专家推荐用户评价均值和偏差度对比图
不同推荐算法下,用户对推荐专家的评分均值和偏差度有所差异,四种推荐算法的均值和偏差度如图4所示,利用推荐算法后,用户的评分均值大大提高,同时用户的评分偏差度在降低,推荐准确度增加。由图4分析可知,协同过滤后的专家推荐所推荐专家的评分均值最高,同时标准差最低,推荐准确度最高。
协同过滤是基于对邻居的形似度计算,所以邻居样本大小,对推荐的准确度有一定的影响。不同样本数量集下的推荐算法MAE值(绝对平均误差)不同,样本数量在5-60之间的基于用户,基于项目(专家)、基于协同过滤推荐的MAE值绘制比较图如图5所示。
图5 不同推荐算法MAE值比较图
根据图5可知,不同推荐算法下,随着样本数量的增加,MAE值在不断减小,最后趋于一个稳定的值。根据图表分析,基于协同过滤的推荐算法MAE值相较基于用户和基于项目的MAE都要低一些,说明协同过滤推荐算法推荐的准确度较高,推荐效果较好。
通过实施得到以下结论:①通过协同过滤推荐给目标用户的专家,目标用户对推荐专家的浏览度和咨询度概率有很大提高,同时,对专家的满意度和服务满意度相对较高。②基于用户和基于(项目)的双重推荐,在满足推荐准确度的同时,也满足给用户推荐的多样性,可以让用户有更多样的专家资源去咨询和学习。③通过某一大类进行划分并且推荐,大大提高了计算机的执行效率,同时能够在计算复杂度相对较低的情况下,更加全面地检索某一大类中涉及的专家资源,加强了推荐的全面性。该研究成果不仅适用于医学领域,同时可以迁移到在线教育领域的专家、课程推荐或者一对一教育咨询方面的专家推荐。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!