时间:2024-05-04
宋 毅,徐志明
(1.哈尔滨华德学院 电子与信息工程学院 计算机应用技术系,黑龙江 哈尔滨 150025;2.哈尔滨工业大学 计算机学院,黑龙江 哈尔滨 150025)
每个用户总体兴趣是个恒定常数。人的精力是有限的,用户兴趣类别偏好也是有限的,如果对某些类兴趣度高,对其他类兴趣度必然降低。文中关注用户感兴趣的类别,用户整体兴趣满足固定常数,也就是随着更新学习,用户某些兴趣可能由高到低递减变化,而有些类别兴趣由低到高递增变化,但是用户在整个类别偏好体系中兴趣度总和个恒定常数用户兴趣能够反映用户主题偏好[1]。然而现有大部分个性化搜索引擎没有识别用户长期兴趣和短期兴趣,因此提出基于短期兴趣来学习用户长期兴趣[2]。
用户兴趣随时间变化符合一定规律,基本规律是先快后慢,先多后少,逐渐遗忘。面对兴趣遗忘过程,如果兴趣模型不进行更新,将会出现用户兴趣漂移现象:也就是随着时间变化,用户对某类兴趣可能增加,对另一类兴趣可能减小,也会有短期兴趣积累一定时间,将会向长期兴趣演变,用户兴趣需要定期更新,可使模型自动发现用户的新兴趣,并能适应用户兴趣的变化,从而能更好、更准确地反映用户的真实兴趣。具体更新需要对增量数据进行处理,因为如果用户对某类兴趣增加,相关文档会增加,对新增数据的大量数据计算需要本文高效处理[3]。
时间窗通过时间的阈值来设定,有很多研究均采用此方案。基于优化时间窗的用户兴趣漂移算法[4],利用分类错误率的变化跟踪用户兴趣的漂移,当用户兴趣发生变化时,通过优化时间窗算法自动调节时间窗的大小[5],用户模型根据该值来进行改进。该算法主要通过客观的时间来设定,因此对于用户遗忘比较公正。目前有学者讨论了个性化技术兼顾时间窗算法的模型[6]。在此,考虑长期因素,也包括短期因素,两者兼顾观察用户兴趣的趋势。该机制效率良好。
为了改进用户兴趣模型的精准率,加入相关反馈知识[7]。该算法是根据原来的文本时间,当有更新文本值时,加入新的文本,同时原来文本相同的不进行更新,只更新不同的差值,这样对于更新时间明显减少,更新效率大大提高,对于发现用户最新的兴趣节省了时间。
有研究学者根据遗忘规律进行衰减[8],通过不同的年龄来标识样本信息,时间增长,标识信息的日期也增长,如果时间超出设定数值,忽略该样本信息。改进用户模型仅用没有被筛选掉的数据,被筛选留下的数据可以反映用户随时间变化的兴趣规律。
第一是用户短期兴趣更新学习,采用遗忘因子进行更新;第二是短期兴趣向长期兴趣变化更新,由于短期兴趣经过一定时期累加[9],随着兴趣度累加到一定时期[10],短期兴趣会演变为长期兴趣,面对增大的数据量,文中考虑增量学习方法,所以采用改进的Rocchio定期自动调整学习模型[11];最后是长期兴趣学习:由于长期兴趣具有变化缓慢、稳定的特点,如果长时间内长期兴趣的兴趣度仍然较小,可以判断用户对该类兴趣不感兴趣,可以对该类兴趣进行淘汰。由此启发,联想到操作系统中的最近最少使用算法(LRU)[12],对应最近一段时间内最久没有使用的兴趣类别进行淘汰,也就是对最近一段时间内长时间兴趣度低的兴趣类别进行淘汰,将新加入的兴趣度高的兴趣类别更新进行替换,进行长期用户兴趣更新学习。
用户兴趣更新学习包括加入用户的最新兴趣和对旧兴趣的遗忘[12]。实验证明,人们在学习中遗忘是有规律的,遗忘的进程很快,并且先快后慢。观察曲线会发现,学得的知识在一天后如不抓紧复习,就只剩下原来的25%。随着时间的推移,遗忘的速度减慢,遗忘的数量也就减少。有人做过一个实验[13],两组学生学习一段课文,甲组在学习后不复习,一天后记忆率36%,一周后只剩13%。乙组按艾宾浩斯记忆规律复习,一天后保持记忆率98%,一周后保持86%,乙组的记忆率明显高于甲组。遗忘因子[7]F(x)如式1所示:
(1)
其中,cur为当前日期;est为兴趣词在用户兴趣库中出现的最近日期;hl为减弱值。
经过弱化,用户兴趣遗忘一半,但并不是线性遗忘,遗忘速度是先快后慢。hl可以根据大量实验测试确定,也可以人为确定,确保在短期兴趣中历史兴趣遗忘快些,长期兴趣中遗忘速度适当慢些。hl短期=2,hl长期=7,随着时间的流逝,用户兴趣也会有对应一些规律性变更,因此挖掘用户模型也对应参数调整。随着个性化信息推荐的发展,研究人员进行了时间参数更新的模型研究,对于存在的差异也就是兴趣的偏移解决策略提出了对应方案:时间窗方法、遗忘函数方法、混合用户模型等[14]。以上思想基本是FIFO算法原理,缺乏考虑用户长期和短期结合的思想[14]。
实验中,每天用户兴趣度更新都有所变化,或增大,或减小,以第7天为例,用户兴趣更新遗忘规律如图1所示。通过图1可以看出,用户在第7天时,在各类兴趣度都有所减小,在体育和军事类兴趣减小均等,在旅游类兴趣减小幅度大,可以推测用户在一周后对旅游领域兴趣明显降低,相对不感兴趣了,而对汽车和军事类别还是比较感兴趣。
图1 用户兴趣遗忘结果
文中将10天设定为短期用户兴趣,具体更新结果如图2所示。可以看出,整体衰减速度是先快后慢,先多后少的趋势符合人们的遗忘规律。
图2 短期兴趣更新
个性化原理是按照用户所感兴趣的数据,根据时间的变化以及兴趣的热点来获取用户兴趣点,用户实际需要的数据也会根据模型而输出具体数值[15]。该算法通过最近最久未用方法改进用户模型,设定阈值的尺寸为L,当有多于L个兴趣出现时,利用“访问的局部问题”,按照“到目前为止最少使用的兴趣,很可能也就是将来最少使用的兴趣”的原则,把兴趣点最低的值淘汰。
根据原理,被移除的兴趣应该是那些在近期内被再次访问的可能性最低的兴趣对象[16]。该算法优于时间窗机制进行淘汰的方法,优点是命中率较高。根据用户在半个月内在体育、军事、教育、汽车、旅游和IT六类的兴趣度淘汰表,可以计算出命中率,就是新加入兴趣已在原用户兴趣序列中的命中次数与新加入兴趣的总数之比。长期兴趣更新结果如图3所示。
图3 长期兴趣更新
兴趣计算的准确程度需要衡量,所以采用传统的相对误差方法,如式2所示。
(2)
其中,E为相对误差;V为真实兴趣度;V'为测量兴趣度。
表1是用户在体育、军事、汽车、教育、旅游和IT六类中兴趣度相对误差实验结果,相对误差率越小,表明兴趣度越准确,用户兴趣模型性能越好。表中显示了用户的兴趣误差:误差范围在0.011之内,兴趣度计算相对误差率较低,表明用户兴趣度的计算相对准确率较高。
表1 误差分析
采用传统的两个参数评价分类性能,即查准率及召回率。具体定义如式3所示。
(3)
其中,QT为查询分类正确数量;QA为所有查询数量。
查询串有相应类别,文中模型的本质是将查询分类,以查询分类的准确率来评价分类准确性。输入查询串320个,分别属于体育、军事、汽车、教育、旅游、IT六类,分类准确率平均值为0.86,每类分类性能如表2所示。
表2 查询分类准确率
阐述了用户兴趣更新学习意义和现有方法,基本的用户兴趣更新学习方法包括时间窗机制、遗忘因子更新学习和最近最少使用算法等。分为短期用户兴趣更新学习和长期用户兴趣更新学习。短期兴趣学习方法采用遗忘因子进行更新学习,长期兴趣学习方法采用最近最少使用算法。通过更新学习,能够动态识别用户兴趣。评价方法包括相对误差分析方法、传统的准确率方法。相对误差值越小,查询串分类准确率越高,说明用户兴趣模型识别用户兴趣类别越准确。相应地给出了实验分析,并且具体评价了用户兴趣模型的性能。
参考文献:
[1] 邢春晓,高凤荣,战思南,等.适应用户兴趣变化的协同过滤推荐算法[J].计算机研究与发展,2007,44(2):296-301.
[2] 费洪晓,戴 弋,穆 珺,等.基于优化时间窗的用户兴趣
漂移方法[J].计算机工程,2008,34(16):210-211.
[3] 战守义,井 新.加入时间因素的个性化信息过滤技术[J].北京理工大学学报,2005,25(9):782-785.
[4] 蒋 萍.基于用户兴趣挖掘的个性化模型研究与设计[D].苏州:苏州大学,2005.
[5] 史朝辉,王晓丹,杨建勋.一种SVM增量训练淘汰算法[J].计算机工程与应用,2005,41(23):187-189.
[6] 李 娜.基于垂直搜索引擎的农业信息推荐关键技术研究[D].沈阳:沈阳农业大学,2016.
[7] 韩春晓.中文期刊个性化搜索引擎的设计与实现[D].哈尔滨:哈尔滨工业大学,2014.
[8] 张梅芳.基于改进PageRank算法和用户兴趣的个性化搜索研究[D].天津:河北工业大学,2014.
[9] 王 哲.一种基于位置服务的个性化美食搜索算法研究与实现[D].长沙:湖南大学,2013.
[10] 黄华东.基于用户模型的个性化搜索研究[D].上海:华东理工大学,2013.
[11] 邓晓嘉.一种基于RSS用户兴趣的个性化搜索系统[D].北京:北京工业大学,2010.
[12] 石志伟,刘 涛,吴功宜.一种快速高效的文本分类方法[J].计算机工程与应用,2005,41(29):180-183.
[13] QIU Feng,CHO J.Automatic identification of user interest for personalized search[C]//Proceedings of the 15th international conference on world wide web.Edinburgh,Scotland,UK:ACM,2006:23-26.
[14] KOUTRIKA G,IOANNIDISY.Personalized queries under a generalized preference model[C]//Proceedings of the 21st international conference on data engineering.Tokoyo,Japan:IEEE,2005.
[15] CLAYPOOL M,LE P,WASEDA M,et al.Implicit interest indicators[C]//Proceedings of the 6th international conference on intelligent user interfaces.Santa Fe,New Mexico,USA:ACM,2001:33-40.
[16] SHEN Xuehua,TAN Bin,ZHAI Chengxiang.Implicit user modeling for personalized search[C]//Proceedings of the 14th ACM international conference on information and knowledge management.Bremen,Germany:ACM,2015:824-831.
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!