规则引导的知识图谱联合嵌入方法

时间：2024-05-04

姚思雨赵天哲王瑞杰,3 刘均

1(西安交通大学计算机科学与技术学院西安 710049)

2(陕西省天地网技术重点实验室(西安交通大学) 西安 710049)

3(苏黎世大学计算机科学系瑞士 8050)

近年来，由于具有表达能力强、歧义性低、模式统一、且支持推理等优点，知识图谱已被广泛用于组织和发布各领域的结构化数据.通常，知识图谱由实体、实体所具有的属性以及实体间的关系所组成.例如，其中可能包含有实体中国、关系首都以及实体属性“China”. 如图1所示，知识图谱的基础构成则是描述2个实体之间的关系或实体及其属性之间关系的三元组，如(中国，首都，北京)、(中国，英语标签，“China”).

Fig. 1 Several triples which contain the entity Beijing and the related literals图1 包含实体“北京”的若干三元组及文本信息

目前，知识图谱已被广泛应用在智能问答[1]、推荐系统[2]和信息检索[3]等任务中，其突出表现在学术与工业界均获得了广泛关注[4].但是，受益于知识图谱所包含丰富信息的同时，其庞大的规模与数据稀疏性问题也给知识图谱的应用带来了挑战.例如，Freebase[5], Yago[6]和Dbpedia[7]等开放领域知识图谱中通常包含有数百万个实体，以及上亿条描述实体关系的三元组.将子图匹配等传统图算法应用在这些大规模知识图谱上往往存在计算低效性问题.为此，研究人员提出了知识图谱嵌入学习模型(knowledge graph embedding learning model)，将知识图谱映射到低维、连续的向量空间中，学习实体与关系的嵌入表示[8].

通过设计特定的表示学习机制，知识图谱的结构和语义等信息可被编码在所学习到的嵌入表示中.一方面，原本需要对大规模知识图谱进行频繁访问的操作，例如结构化查询构建(structured query construction)[9]、逻辑查询执行(logical query pro-cessing)[10]和查询放缩(query relaxation)[11]，均可在所学习到的嵌入表示空间中通过数值计算完成，极大地提高了效率.另一方面，知识图谱的嵌入学习提供了一种抽取并高效表示知识图谱特征信息的方法，类似于自然语言处理领域中被广泛应用的词嵌入(word embedding)，知识图谱的嵌入表示也为基于知识图谱的深度学习工作提供了极大的便利.

现有知识图谱嵌入学习模型大多仅关注知识图谱中以三元组表示的结构信息.例如，Bordes等人提出了基于翻译机制(translation mechanism)的TransE模型[12]，其目标任务为链接预测(link prediction)与三元组分类(triple classification)，概括而言就是判断知识图谱中给定的2个实体之间是否存在某个关系.因此TransE模型仅关注所学习到的嵌入表示对单条三元组结构信息的编码，其在嵌入学习过程中将知识图谱简化为互不相关的三元组的有限集合.因此，TransE及其后续改进模型[13-16]对知识图谱中上下文信息的编码能力非常弱，很难应用于语义相关的任务.针对这一问题，相继有一些基于上下文信息的嵌入表示模型被提出，如GAKE[17]， RDF2Vec[18].但是它们仍然仅关注知识图谱中由子图、路径等结构所表示的上下文信息.例如，在学习图1中实体北京的嵌入表示时，上述方法仅关注(中国，首都，北京)与(北京，位于，华北)等描述实体间关系的三元组，而忽略了北京的简介、英文标签等文本信息.显然，文本信息的缺失限制了所学到嵌入表示对语义信息的表达.

为解决这一问题，本文提出了一种规则引导的知识图谱联合嵌入学习模型.受Vashishth等人[19]所提出的图卷积网络启发，模型首先通过多关系型图卷积将实体在知识图谱中的上下文信息编码到实体的嵌入表示中.与Vashishth等人的工作所不同的是，本文认为实体的多条上下文信息应该具有不同的重要程度，并且某条上下文信息的重要程度取决于2个因素：该条上下文信息的置信度，以及其相对于实体的关联度.为此，本文提出了一条简单有效的规则引导上下文信息置信度的计算，并基于知识图谱中的文本信息表示提出了实体与其上下文信息之间关联度的计算方法.最后，模型将图卷积网络所编码的嵌入表示与文本信息的向量表示整合，以链接预测任务的结果作为训练目标，学习知识图谱中实体与关系的嵌入表示.

本文贡献主要体现在3个方面：

1) 基于图卷积网络，创新地提出了一种联合考虑知识图谱中上下文信息与文本信息，由规则引导的嵌入表示学习模型.

2) 针对上下文信息在图卷积中的重要程度，提出了应用规则以及知识图谱中文本信息来计算单条上下文信息置信度与关联度的新方法.

3) 在基准数据集上进行了充分的实验，并与相关的知识图谱嵌入学习方法进行了对比，实验结果验证了本文模型的有效性.

1 相关工作

本节对与本文工作较相关的知识图谱嵌入学习模型进行介绍，由于本文所提出的模型是基于图神经网络的，因此分别介绍基于图神经网络的知识图谱嵌入学习模型和其他非图神经网络的嵌入学习模型.

1.1 基于图神经网络的模型

基于图神经网络的模型主要包括R-GCN[20], W-GCN[21], CompGCN[19]等.该类模型通常将图卷积网络作为编码器，对图结构数据进行编码，并结合对应的解码器进行知识图谱上的链接预测、节点分类等任务.在R-GCN中，每层网络中节点与关系的特征利用权重矩阵进行计算，并通过领域聚合的方式传递至后续网络层.具体而言，R-GCN利用基分解和块对角分解构造特定关系的权重矩阵，以处理不同类型的邻居关系，将其与邻居节点信息进行融合，并传递到目标实体上进行更新.W-GCN在图卷积网络聚合过程中为每个权重矩阵分配可学习的权重参数，使模型获得更优的实体嵌入表示.CompGCN则提出了针对中心节点的领域信息聚合方法，在理论上使用多种“实体-关系”组合算法对当前主流的基于多关系的图卷积网络模型进行了概括.

1.2 非图神经网络的模型

非图神经网络的嵌入学习模型类别较多，主要包括基于翻译机制的模型，如TransE[12]及其后续改进模型，包括TransH[13]，TransR[14]，TransD[15]，TransAH[16],基于上下文信息的模型，如GAKE[17]，RDF2Vec[18]，基于张量分解的模型，如ComplEx[22]，RESCAL[23].

其中，基于翻译机制的模型应用较为广泛.该类模型通常仅关注知识图谱的结构信息，将实体之间的关系表示为嵌入向量空间中的某种翻译操作(translation operation).以TransE为例，其将知识图谱中的实体与关系都表示在同一个低维欧几里得空间中，以向量表示一个实体或关系.具体而言，对于知识图谱中的一条三元组(h,r,t)，TransE 将其中的关系r看作在欧几里得空间中从头实体h到尾实体t的平移操作，即其期望头实体所对应的向量h经过关系所对应的向量r的平移操作后可以非常逼近尾实体所对应的向量t，即h+r≈t.

TransE的翻译机制较为简单，因此可以高效地应用于大规模知识图谱，但同时又限制了其模型的表达能力，使其难以处理一对多、多对一以及多对多类型的复杂关系[14].为解决这一问题，TransE之后相继有一些翻译机制更加复杂的模型被提出.例如，TransH[15]相对于所给定三元组中关系的超平面空间设计翻译机制，TransR[16]则针对知识图谱中的每一个关系额外学习一个矩阵，借助该矩阵将头、尾实体通过线性变换映射到相应的关系向量空间中，然后再计算其翻译机制的损失值.

2 联合嵌入表示学习

本节首先对知识图谱嵌入学习问题进行形式化定义，介绍相关概念的符号表示，然后详细介绍所提出的规则引导的联合嵌入学习模型.

2.1 问题定义

2.2 模型整体架构

对于置信度计算，本文针对上下文信息中所包含的关系提出一条简单有效的规则，并基于该规则在嵌入学习之前预先计算特定于一对关系的置信度矩阵C，并在图卷积过程中利用该矩阵计算某条上下文信息的置信度，如图2中标有置信度计算的虚线所示.

Fig. 2 An overview of the core part of the model图2 模型核心部分框架图

对于关联度计算，本文首先利用预训练语言模型对知识图谱中实体与关系的文本信息进行编码.如图2所示，对于实体eh与关系ri的文本leh与lri，它们的文本向量分别记为Leh与Lri.本文基于实体与关系的文本向量表示计算单条上下文信息与其对应实体之间的关联度，如图2中标有关联度计算的虚线所示.

值得一提的是，本文所提出的模型采用“编码器-解码器”框架(encoder-decoder).上述基于图卷积网络的上下文信息编码即为编码器的主要内容.除此之外，编码器还将上述过程学习到的实体与关系的嵌入表示与它们的文本表示相结合.本文模型的解码器则主要基于ConvE模型[24]实现.下面对模型的细节进行详细的介绍.

2.3 编码器

(1)

(2)

本文利用实体与关系的文本表示计算对于某一实体而言，其单条上下文信息的关联度.如图2所示，实体eh的一条邻居三元组为(eh,ri,eti)，本文计算参数βi与γi来度量该条邻居三元组所表示的上下文信息与eh之间的关联度，具体公式为：

(3)

(4)

基于图卷积网络的嵌入更新.本文采用Vashishth等人所提出的CompGCN[19]模型作为图卷积网络的架构，对知识图谱上下文信息进行编码.

(5)

αi=λ1βi+λ2γi,

(6)

(7)

(8)

(9)

e=e+Le,

(10)

r=r+Lr.

(11)

2.4 解码器

(12)

其中,[·]表示相连接，ω表示卷积过滤器，vec(·)为ConvE所定义的维度变换，Wcov为参数矩阵，f′(·)为非线性函数.当式(12)计算得到的分数值越高，(eh,r,et)越有可能是正确的三元组.

3 实验

本节首先对实验所使用的数据集、对比模型和评价指标等进行说明，然后介绍本文所提模型的实验结果，并与其他基准模型进行比较与分析.

3.1 数据集及对比模型介绍

本文在2个广泛使用的数据集上进行试验，分别是FB15K-237[27]和WN18[12]，其统计数据如表1所示:

Table 1 Summary Statistics of Knowledge Graphs表1 数据集的统计信息

为验证所提模型的有效性，本文广泛选取了当前被应用较多的知识图谱嵌入学习模型作为对比方法，具体包括TransE[11],DistMult[28],ComplEx[22],R-GCN[20],KBGAN[29],ConvE[24],ConvKB[30],SACN[21],HypER[31],RotatE[32],ConvR[33],VR-GCN[34],CompGCN[19].其中，TransE[11]为基于翻译机制的嵌入学习模型，上文已对其进行了详细介绍.DistMult[28]将实体表示为通过神经网络学习到的低维向量，将关系表示为双线性或线性映射函数.ComplEx[22]与RESCAL[23]模型类似，属于基于矩阵/张量分解进行链接预测的模型.R-GCN[20],VR-GCN[34]与CompGCN[19]属于基于图卷积网络的嵌入表示模型，以R-GCN[20]为例，其将知识图谱中的关系编码为矩阵，通过关系矩阵传递相邻实体的嵌入信息，并采用了多层图卷积网络.KBGAN则应用了对抗生成网络(generative adversarial network, GAN)，在训练过程中生成更具迷惑性的负例来提高嵌入表示的训练效果.本文应用了ConvE[24]模型作为解码器，在第2节中对其进行了详细介绍.ConvKB[30],ConvR[33],SACN[21]与HypER[31]均是基于卷积神经网络的方法.以HypER[31]为例，其可以生成简化的与关系相关的卷积过滤器，且可被构造为张量分解.RotatE[32]与TransE[11]等基于翻译机制的模型类似，其将实体之间的关系表示为向量空间中从头实体到尾实体的旋转.

3.2 评价方法说明

最后采用MR(mean rank),MRR(mean reciprocal rank)和Hit@k作为评价指标[12].其中，MR与MRR均为预测结果平均排名的指标，Hit@k则指预测结果排在前k名中的比例，本文具体采用Hit@10，Hit@3和Hit@1.总之，越好的预测结果，其MR值越低、MRR值越高、Hit@k也越高.

3.3 实验设置

本文实验代码使用Python实现，在配置Ubuntu 16.04.6 LTS操作系统的服务器上完成，其CPU配置为16核Intel Core i7-6900K 3.20 GHz，内存128 GB，GPU配置为4张GeForce GTX 1080 GPU卡.

对于实体和关系文本表示向量的编码，本文借助pretrained-bert-base-uncased预训练模型(1)https://github.com/google-research/bert，文本向量初始维度为768，转换后的维度为200.在图卷积网络中，实体和关系的初始化向量维度为100，即d=100，GCN的维度为200，即d′=200.解码器中维度转换的高度和宽度分别为10和20，卷积过滤器的大小为7×7，数量为200.利用Adam优化器对整体模型进行训练，批大小(batch size)为256，学习率(learning rate)为0.001.

本文对TransE模型进行了复现，其余模型则引用对比模型论文中所报告的结果.

3.4 实验结果分析

表2报告了本文模型与对比模型在链接预测任务中的实验结果.

通过表2可观察到如下结果：

1) 本文模型在各个评价指标上显著优于TransE,DistMult和ComplEx等基准模型，与SACN,HypER和CompGCN等最新提出的模型十分接近，由此可证明本文模型的有效性.对于FB15K-237数据集，本文在Hit@10指标上排名第一.

2) 在Hit@1和Hit@3指标上也与CompGCN，ConvR，SACN相差极小.具体在Hit@1指标上仅比最高的CompGCN低1.51%，在MRR指标上与CompGCN相比仅低0.8%.而对于WN18数据集，本文模型在MR指标上排名第一，在Hit@10和Hit@3指标上也与第一名差距微小.具体在Hit@10指标上比RotatE低0.2%，在Hit@3指标上比ConvR和HypER仅低0.9%.

3) 基于图神经网络的嵌入学习方法的表现普遍优于TransE等仅关注结构化信息的模型.就本文模型而言，由于其基于图卷积网络对知识图谱的上下文信息与文本信息进行了联合嵌入表示，显著提高了在链接预测任务中的表现.

Table 2 Link Prediction Results on FB15K-237 and WN18表2 链接预测在FB15K-237和WN18上的结果

4 总结

现有多数知识图谱嵌入学习方法仅考虑由三元组表示的知识图谱结构信息，而忽视了知识图谱中丰富的上下文信息与文本信息，限制了嵌入表示在链接预测等任务中的表现.针对现有方法的这一局限性，本文提出一种利用图卷积神经网络，结合知识图谱的上下文信息与文本信息学习嵌入表示的方法.为了对上下文信息的重要程度进行细粒度分析，本文提出一条简单有效的规则来计算上下文信息的置信度，并基于文本信息的向量表示提出计算上下文信息关联度的方法，加强了对上下文信息的约束和引导.最后，通过在2个广泛使用的基准数据集上进行对比实验，验证了本文模型的有效性.

免责声明

我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!

规则引导的知识图谱联合嵌入方法