时间:2024-06-19
刘 玲,黄丽蓉,刘胜宗
(湖南财政经济学院 信息技术与管理学院,长沙 410205)
论文推荐系统的关键技术研究*
刘 玲,黄丽蓉,刘胜宗
(湖南财政经济学院 信息技术与管理学院,长沙 410205)
随着海量的研究论文出版发表,向研究人员推荐相关论文以满足他们的信息需求的论文推荐系统成为了一个重要的研究领域。论文相关度是论文推荐系统的核心,详细介绍了围绕这一核心的三类关键技术:引用关系分类技术、基于引用图的相关性度量技术和论文推荐算法,并实验对比了目前常用的五种相关性度量方法(共引、共联、CCIDF、HITS Vector-based和Katz距离)的推荐效果,由此提出用引用关系来量化论文之间的依赖关系,再结合Katz距离计算全局相关性这一改进意见.
引用关系;引用图;论文相关性度量
随着知识、信息的数字化,越来越多的科研成果存放在数字图书馆系统中,当我们在享受这些系统丰富而全面的信息的同时,也面临信息过载带来的不便.通过改进数字图书馆的搜索算法,虽然能够提升全局的结果排序性能,但其忽略了用户的个性化需求.为此,数字图书馆迫切需要一种能够匹配用户兴趣需求的论文推荐系统.然而,发展了20多年、较为成熟的商业领域中的主流推荐技术,由于缺少论文领域的用户评分和用户画像,并不不适合在数字图书馆中完成论文推荐任务.
论文推荐系统的关键技术是论文之间相关性的量化技术,目前主要包括内容分析(如计算文本的相似度)、社会网络分析(如合作作者关系)、引文分析(如共引等)三大分支.
Strohman等人在文献[1]中已经指出,简单的内容分析在论文推荐中效果并不好,而引用信息更能精确地测量论文的相关性.至于社会网络分析,给用户推荐合作作者或是其他相关人员(例如关注的作者、权威的作者)的论文,我们认为靶向性受太多因素的干扰,比如,一个作者的研究领域常常是多样性的;一个学者的兴趣领域也常常是变化的.所以与其通过作者间接相关,不如通过论文直接相关.
如此分析,我们将重点放在引文分析这类相关性量化技术以及基于引文分析的推荐算法上,从引用关系分析技术和基于引用图的相关性度量技术两方面展开理论和实验的研究,表1是下文用到的符号注释表.
表1 符号注释描述表
Tang等人在文献[2]中认为,如果两篇论文高度相关,是因为它们描述了相似的内容或主题.但我们认为,一些在内容或主题上差异较大的两篇论文,仍可能具有较高的相关性.例如,某篇论文中的关键算法或解决方法是基于其引用的一篇参考文献而提出的,则这两篇论文之间存在着基础性的或标准方法类的相关关系.事实上,不同类型的引用关系有助于量化引文和被引文之间的相关性[3].一些研究者已经在引用关系上开展了语义挖掘的研究,来将各种引文按照引用关系、引用影响力或是重要性进行分类.
Nanba等人[4]将引用关系分为三种类型:基于(Based-on)关系、比较(Comparable)关系和一般(General)关系.当pciter的内容是基于pcitee的扩展时,pciter与pcitee之间的引用链接就是基于关系,例如pciter提出的技术是基于pcitee提出的技术.当用pcitee用来与pciter在某方面进行相异或相似性比较时,pciter与pcitee之间的引用链接就是比较关系,例如pciter与pcitee用不同的方法解决了一个相似的研究问题.除了基于关系和比较关系,其他都是一般关系,例如pciter通过引用pcitee来介绍一些背景知识.Nanba首先采用事先为基于关系和比较关系指定的线索词的匹配来收集引文被引用位置的上下文,然后用事先指定的160个规则作用在此收集到的线索词集上来识别引用链接是哪种类型.本文觉得将引用关系分为以下三类更全面:(1)主题相关的论文,比如都是针对某个相同的研究问题或主题而提出的不同解决方案;(2)基础性的或标准方法类的相关论文,这些论文主要提供基础性的理论与工具,有利于研究人员解决其研究中的实际问题;(3)综述或背景类的相关论文.但相关的分类技术还有待研究.
Tang等人[5]提出了一种监督学习方法来分类引用链接,并且关注每个引用链接的影响强度的量化工作.他们认为如果一对pciter和pcitee描述了相似的内容,那么pcitee就对pciter有很大的影响.但是,本文认为仅仅考虑内容相似度来评价影响可能会带来一些问题,因为一些高影响力的文章在内容上可能变化很大.另外,[5]只考虑了直接引用链接的影响,然而使用引用图的全局结构可以检索更多相关论文的候选项,所以进一步研究间接引用的影响强度是很有必要的.
Huang等人[6]提出了一个引文语义链网络(C-SLN)来描述引文网络的语义信息.他们使用一些自然语言处理方法来生成C-SLN并且计算引文的重要性,认为在论文的主体部分出现很多次的引用应该有更高的重要性.然而,提取每个引用的发生位置是一项耗时的任务.
目前引用信息已被广泛用来计算学术论文之间的相关性.由论文数据集可建一个引用图,图上每个节点p∈V代表一篇论文,每条边ε∈E代表一个引用链接.直观的引用信息都包含在引用图中,现有技术大都使用相邻节点或是全局引用图的结构来度量论文相关性.
使用相邻节点信息的主要方法有共引(co-citation)、共联(co-coupling)和CCIDF.共引(co-citation)识别相关论文是指,若论文A和B均被同一篇论文C引用,则认为A与B是相关论文;通过共联(co-coupling)识别相关论文是指,若论文A和B的参考文献中均引用了相同的一篇或多篇论文,则认为A与B是相关论文[7].表2中各列出了一种基于共引共联思想的相关度计算公式.共引和共联法存在的问题包括:(1)对于最新发表的论文,由于其被引量少,通过共引关系较难判定其是否为相关论文;(2)对于一个新兴领域早期阶段发表的论文,由于其参考文献数量少,通过共联关系也较难判定其是否为相关论文.Lawrence等人在[8]中提出了CCIDF的相关度测量方法,但从表2所示的公式可看出 CCIDF是基于共引关系,所以其仍存在上述问题.CCIDF类似于信息检索里的TF-IDF概念,用逆文本频率指数IDF来给每篇论文赋权,以此来降低高引用率的方法类论文的权重,使推荐列表里的论文类型更趋多样化.
使用全局引用图的结构信息的主要方法有Lu等人在[9]中提出的HITS Vector-based测量方法和Liben-Nowell等人在[10]中提出的Katz距离测度等.HITS算法是由Jon Kleinberg博士于1997 年最先提出,用于网页链接分析的一个非常基础且重要的算法,其核心思想是找到与用户查询主题相关的高质量权威页面(例如比如搜索引擎领域的Google和百度首页)和包含了很多指向高质量权威页面链接的枢纽页面(例如hao123首页),尤其是权威页面.[9]认为由学术论文和他们之间的引用形成的网络空间具有同质性,比万维网更适合使用HITS算法,他们提出的HITS Vector-based算法是:首先对用于相似度计算的两篇论文分别生成路径长度为k的局部引用图;接着对每个局部引用图计算里面每个节点的枢纽性权值和权威性权值;再以两个局部引用图的并集节点为模,节点的枢纽性权值和权威性权值为值,对每一个局部引用图生成一个向量(若该图不包含某一节点,则该节点的值置为0);最后计算这两个向量的余弦距离作为两篇论文的相似度.Katz通过考虑节点之间的路径数和每条路径的长度来度量两个节点的相关性,具体相关性计算公式见表2.但这类通过将引用关系转换为图模型,并据此衡量结点(即论文)之间相关度的研究中,都忽略了边(即引用)之间的语义关系.
表2 各方法的相关性度量公式
众所周知,协同过滤(Collaboration Filtering,简称CF)算法是推荐系统中最基本的算法,该算法不仅在学术界得到了深入研究,而且在业界得到了广泛应用.在论文推荐领域应用CF算法的关键是完成引用图和用户物品评分矩阵(user-item rating matrix)之间的映射.至今常提及的共有如表3所示的三种映射:1)将用户映射为论文作者,物品映射为参考文献中的被引文,每个作者会给它的参考文献评分(例如2表示参考过2次);2)将用户映射为论文,物品映射为参考文献中的被引文,每篇论文会给它的参考文献投票(1表示引用过,0表示没有引用过);3)用户和物品都被映射为被引文,两篇被引文对应的评分是它们的共引度量(例如3表示两篇论文曾同时被3篇论文引用过).映射一较难体现论文间的引用关系,也不适合直接用来建立用户模型,用得比较少了;在映射二得到的共联矩阵上可以使用UserCF算法,比较给定论文和候选论文的参考文献的相似度,用共联思想识别相关的论文;在映射三得到的共引矩阵上可以使用ItemCF算法,比较给定论文和候选论文的被引相似度,用共引思想识别相关的论文.
表3 引用图到用户物品评分矩阵的映射方法
Ekstrand等人[11]提出利用论文在引用网络中的影响力来增强论文推荐算法的方法,他们提到的论文推荐算法包括协同过滤算法和基于内容的算法.是根据用户近期的研究兴趣来为用户推荐论文.然而用户的研究兴趣很有可能跨越很大,并且迄今为止没有广受认同的用户模型,所以本文认为为指定的论文推荐相似论文更合理,用户可以再和指定的论文建立关系.
为了更直观的了解第2部分提到的常用论文相关性度量技术(Co-citation、Co-coupling、CCIDF、HITS Vector-based、Katz)的优劣,我们进行了对比实验.
实验数据集:从ACL Anthology Network上下载的AAN数据集(http://clair.eecs.umich.edu/aan/index.php),该数据集包含19918篇论文和124812个引用链接、17954位作者和112558个合作链接.
实验设计:输入一篇论文p,首先在全局引用图上提取p的相邻(3个长度范围以内)论文集Ap(Ap=Rp∪Qp),按照均匀分布随机分成10份,随机挑选一份作为测试集,标记为Tp,并去掉所有p与Tp的链接,剩下的9份作为训练集.
评测指标:因为只有相关和不相关两种分类,所以选用F1分数和NDCG指标.F1分数能同时兼顾准确率和召回率;DCG的思想是越相关的结果排在越前面其值越大,NDCG是归一化的DCG.其中D表示推荐论文集,precision是准确率,recall是召回率,i表示检索的论文的相关度排名,检索的论文相关则Gi=1,不相关则Gi=0.
(1)
(2)
实验结果:如表3所示,考虑了全局引用图的结构信息的HITS Vectors-based和Katz方法相对只考虑相邻引用信息的cocitation、cocoupling和CCIDF方法具有更好的性能.特别是Katz方法,在此实验中,明显比其他方法的准确率和召回率高了很多,并且相对HITS Vectors-based方法更容易实现,执行效率更高.
实验结论:(1)使用全局引用图3个长度以内的链接信息相比只使用相邻链接信息能获得更好的推荐效果;(2)HITS Vectors-based方法中每篇论文的权威性权值必须用40次迭代求得,所以Katz方法不仅比HITS Vectors-based方法能获得更好的推荐效果,而且更容易实现.
表4 前十个结果的F1值和NDCG值
针对研究人员高效获取、组织、定位相关学术论文的难题,以及数字图书馆对个性化论文推荐系统的实际需求,我们在推荐系统的核心——论文相关度上深入研究,发现目前基于引用图的论文相关度研究是最高效最广泛的,主要包括引用关系分类技术和相关度度量技术,以及相应的CF推荐算法.通过对目前常用的五种相关性度量方法的对比实验发现使用全局引用图结构信息的Katz方法能获得最好的推荐效果.
本文实验用到的五种相关性度量方法并没有用到引用关系,而根据实际经验可以确定引文并不是对所有被引文都具有相同的依赖性,且高依赖性的引文具有高相关性,所以我们未来将会研究如何利用引用关系来量化论文之间的依赖关系,再结合Katz距离计算全局相关性.
[1] Strohman, T., Croft, W., Jensen, D..Recommending Citations for Academic Papers[A].Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 2007:706-707.
[2] J. Tang, J. Zhang, J. Yu, Z. Yang. Topic Distributions over Links on Web[A]. Proceedings of the 2009 Ninth IEEE International Conference on Data Mining, 2009:1010-1015.
[3] Z. Huang, Y. Qiu. A Multiple-perspective Approach to Constructing and Aggregating Citation Semantic Link Network[J]. Future Generation Computer Systems, 2010,26(3):400-407.
[4] H. Nanba and M. Okumura.Towards multi-paper summarization using reference information[A]. International Joint Conferenceon ArtificialIntelligence, 1999(16):926-931.
[5] J. Tang, J. Zhang, J. Yu, Z. Yang, K. Cai, R. Ma, L. Zhang, and Z. Su.Topic Distributions over Links on Web[A]. Proceedings of the 2009 Ninth IEEE International Conference on Data Mining, 2009:1010-1015.
[6] Z. Huang and Y. Qiu. A Multiple-perspective Approach to Constructing and Aggregating Citation Semantic Link Network[J]. Future Generation Computer Systems, 2010,26(3):400-407.
[7] Y. Liang, Q. Li, T. Qian. Finding Relevant Papers Based on Citation Relations[A]. Proceedings of the 12th International Conference on Web-Age Information Management, 2011:403-414.
[8] Lawrence, S., Lee Giles, C., Bollacker, K.Digital Libraries and Autonomous Citation Indexing[J]. Computer, 1999,32(6):67-71.
[9] W. Lu, Janssen, J., Milios, E., Japkowicz, N., Zhang, Y.: Node Similarity in the Citation Graph[J]. Knowledge and Information Systems, 2007,11(1):105-129.
[10] Liben-Nowell, D., Kleinberg, J.: The Link-prediction Problem for Social Networks[J]. Journal of the American Society for Information Science and Technology, 2007,58(7):1019-1031.
[11] M. Ekstrand, P. Kannan, J. Stemper, J. Butler, J. Konstan, and J. Riedl. Automatically building research reading lists[A]. Proceedings of the fourth ACM conference on Recommender Systems, 2010:159-166.
ResearchonKeyTechnologyofPaperRecommendationSystem
LIU Ling,HUANG Li-rong,LIU Sheng-zong
(Information Technology and Management Institute, Hunan University of Finance and Economics, Changsha 410205,China)
With the tremendous amount of research publications, paper recommending system which recommends relevant papers to researchers to fulfill their information need becomes an important research area. This paper argues that paper relevance measurement is the core of paper recommending system.So three key technologies centering on this core are introduced in detail:citation relation classification,paper relevance measurement based on citation graph and paper recommendation algorithm.We evaluate five well-known approaches on a real-world publication data set and conduct an extensive comparison about them.At last, it is proposed to improve the global relevance of Katz by using reference relation to quantify the dependency between the papers.
citation relation; caitation graph; paper relevance measurement
2017-08-16
湖南省教育厅科研项目(16C0268).
刘 玲(1980-),女,硕士,讲师,研究方向:数据挖掘和机器学习.
TP391
A
1671-119X(2017)04-0043-05
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!