知识图谱嵌入技术研究综述.pdf

pdf,计算机与AI
文档页数:35
文档大小:3.26MB
文档格式:pdf
文档分类:计算机与AI
上传会员:
上传日期:
最后更新:

知识图谱嵌入技术研究综述

张天成,田雪,孙相会,于明鹤,艳红,于戈

(东北大学计算机科学与工程学院,辽宁沈阳110169)东北大学款件学院,辽宁沈阳110169) 通信作者:田雪 E-mal: @sa..cn

摘要:知识图谱(KG)是一种用图模型来描述知识和建模事物之间关联关系的技术.如识图谱嵌入(KGE)作为一种被广泛采用的知识表示方法,其主要忍怒是将知识图谱中的实体和关系嵌入到连续的向量空间中,同来简化操 作,同时保留KG的因有结构.可以使得多种下游任务受益,例如KG补全和关系提取等.首先对现有的知识图语嵌入技术进行全面回顾,不仅包括使用KG中观察到的事实进行嵌入的技术,还包括添加时间维度的动态KG嵌入方法,以及融合多源信息的KG嵌入技术,对相关模型从实体嵌入、关系嵌入、评分函数等方面进行分析、对 比与总结,然后简要介绍KG嵌入技术在下游任务中的典型应同,包括问答系统、推荐系统和关系提取等,最后阐述如识图谱嵌入面格的挑战,对未来的研究方向进行展望.

关键词:知识图谱丧入;翻译模型;复杂关系建模;动态如识图谱;关系提取

中文引用格式:张天成,田雪,孙相会,于明鹤,孙艳红,于戈,知识图谱嵌入技术研究综述,软件学推.htp:/jos./1000

Research RuanFian Xe Bao/ouml f Sofwae (inChinese) hp:/ 英文用格式: Zhang TC Tian X Sun XH Yu MH Sun YH Yu G Overviw oa Knowldge Graph Embeding Techology

Overview on Knowledge Graph Embedding Technology Research

ZHANG Tian-Cheng TIAN Xue' SUN Xiang-Hu' YU Ming-He’ SUN Yan-Hong’ YU Ge

(School of Comutr Sciene and Enginering Nrhste Univesity Shenyang 110169 Chia)“(Software Colleg Norbstm Univeity Shenyang 110169 Chia)

Atstract: Knofodgc gaph (KG) is a kind of tocolegy tha uses gaph model to describe the relationship bewe knowledge ndmodling things Knlee Gnph Embedding (KGE) as a widly aded kwlde reresti mthd its main d is t mbmtities ad relathips in a kg gph it atis v s whic is usd t simlify pertions ile pring th intrinsic stnucture of the KG. It can benefit a variety of dowustream tasks such as KG pletion relatioe extraction cte. Firstly theexising kwl p mbding tchlge are cmsivly rviwd ilding nt ly hiqes ing th fts vd KG for embedding but also dymamic KG embedding metbods that add time dimensions as well as KG embeding technologies thatintegate mli-soe inftin. Thc rlevmt modls arc analyzod coprd and smarizd fom c pespetives of enity cmbedding relation cmbedding and scoring functions. Thcn typical aplications of KG embedding technologies in dmstream tasks arejo saup aq eg ea dsoa pue ssis uo sus usue ugsnb up p gaknowledge gah embedding e epoded and he fure research dirctions are ppted.

Key werds: knoslodlge gaph cmbeding (KGE); trnslatice model; plex reltionship modeling; dynamic knorledgec gaph;relaticeship extraction

知识图谱((knowledge graph KG)作为人工智能的一个分支,引起了学术界和工业界的广泛关注,其构建与应用也得到了迅速发展.例如Freebase,DBpedia,YAGO,NELL,Wikidata等知识图谱已经被成功创建并应用

世界的实体为节点,实体之间的关系为边的有向图在这个图中,每个有向边连同其头实体与尾实体构成了一个三常有效,但这种三元组的基本符号性质使KG难以操作 元组,即(头实体,关系,尾实体),表示头实体与尾实体通过关系进行连接,尽管知识图谱在表示结构化数据方面非

为了解决这个问题,近年来提出了一个新的研究方向,称为知识图谱嵌入(knowledge graph embedding KGE)或知识表示学习(knowledge representation leaming,KRL),旨在将KG的组成部分(包括实体和关系)嵌入到连续的向量空间中,以在简化操作的同时保留KG的固有结构.与传统的表示方法相比,KGE为KG中的实体和关系 提供了更加密集的表示,降低了其应用中的计算复杂度.此外,KGE可以通过度量实体和关系低维嵌入的相似性来显式地捕获实体和关系之间的相似性

尽管研究者已提出多种模型来学习KG中的实体和关系表示,但是目前大多数可用的技术仍然仅根据知识图谱中观察到的事实来执行嵌入任务.具体地说,给定一个KG,首先在低维向量空间中表示实体和关系,并为每个 三元组定义一个评分函数以衡量其在该空间中的合理性.然后通过最大化观察到的三元组的总合理性来学习实体类1.19,实体解析83等,由于在整个过程中仅要求学习的嵌入在每个单独的事实中兼容,因此对下游任务可能没 有足够的预测性近年来,越来越多的研究者开始进一步考虑利用其他类型的信息,例如实体类型4,文本

本文第1节介绍相关工作调查与基本符号定义;第2节对仅使用KG中观察到的事实进行嵌入的技术进行全面回顾,具体介绍基于距离的模型,语义匹配模型以及最新的KGE技术;第3节主要讨论了融合时间信息的动态知识图谱嵌入技术,详细介绍tTransE、Know-Evolve、HyTE、TDG2E等代表性的动态KGE方法;第4节归纳 了除KG中观察到的事实以外的结合附加信息的KGE技术,例如实体类别、文本捕述、关系路径等.第5节介绍KGE技术在下游任务中的典型应用.第6节对KGE技术面临的挑战与未来研究方向进行讨论.最后,第7节对全文工作进行总结

1相关调查与符号定义

1.1相关调查

先前有关知识图谱的调查论文主要集中在统计关系孕习(statistical relational leaming) knowledge graphrefinemen,中文知识图谱构建(Chinese knowedge graph cnstruction KGE或KRL Li等人在 2016 年详细介绍了知识表示学习(KRL)的基本概念和主要方法,对知识表示学习面临的主要挑战、已有解决方案以及未来研究方向进行了全面总结,为后续的调查和研究奠定了坚实的基础,近年来,Lin等人以线性方式提出KRL 着重于进行定量分析.Wang等人根据评分函数对KRL模型进行分类,侧重于KRL中使用的信息类型

了全新角度的分类,对主流KGE技术进行了阐述,同时介绍了动态知识图谱嵌入方法的最新进展,并分析了相关 我们的调查研究以Wang等人的调查为基础.与之不同的是,本文对基于距离的模型与语义匹配模型进行代表模型,此外,本文讨论了结合事实以外的其他信息的嵌入技术,以及KGE技术的典型应用.最后,总结了KGE技术面临的挑战,并对其未来方向进行展望.

1.2符号定义

种基本符号.首先,定义知识图谱为G=(E,R S),其中E=[2.u]是事实集合,包含国种不同实体; 知识图谱嵌入旨在将KG中的实体和关系嵌入到一个低维连续的语义空间中.为了便于说明,本小节定义儿R=r代表关系集合,包含两种不同关系;而S≤ExRxE表示事实三元组集合,一般格式为(h r.0),其中A和r分别表示头、尾实体,r表示它们之间的关系.例如三元组(BillClinton wasPresidentOf USA)表示BillIClinton 和 USA 之间存在关系 wasPresidentOf.表1列出了具体的符号及其描述.

表1基本符号定义

符号 损述 符号 捐述(h r.n) G 事实三元组 知识图谱 (h r t) 嵌入三元组 事实集合rER eeE 关系集合与实体集合 f(h n) 评分函数cr(-)g(-) L 非线性激活函数 损失函数 M R 雄实值空间 映射矩阵d维复数空间 H 雌超复数空间Hadamard乐积 a维环面空间 R(-) 取复数值的实部 Hamiton承积* 暂环相关 concar() [h r] 向量/矩阵连接[b] 向量h的第项 卷积滤波器 [M-)]./ 矩阵ML的第y项 卷积操作

2使用事实进行知识图谱嵌入

本节对仅使用事实进行知识图谱嵌入的方法采用评分函数进行划分,评分函数用于衡量事实的合理性,在基于能量的学习框架中也被称为能量函数.典型类型的评分函数分为两种:基于距离的评分函数(如图1(a)与基于 相似性的评分函数(如图1(b)).

2.1基于距离的模型

基于距离的模型使用基于距离的评分函数,即通过计算实体之间的距离来衡量事实的合理性,在这种情况下,翻译原理hr=1被广泛使用.也就是说,基于距离的模型通常由关系执行翻译后,根据两个实体之间的距离来度量一个事实的合理性.本小节将基于距离的模型进一步细分为基本距离模型,翻译模型和复杂关系建模

2.1.1基本距离模型SE

SE:一种直观的基于距离的方法是计算实体在关系的对应空间中的投影向量之间的距离.结构表示(structuredcmbeding SE)中的每个实体用d维向量表示,SE为每个关系定义了两个投影矩阵M :和M2,利用这两个投影矩阵和L距离学习结构嵌入为:

(1)

该距离表明头实体h与尾实体r在关系r下的语义相关度.然而,SE模型对头、尾实体使用2个不同的矩阵进行投影,因此,SE模型的协同性较差,无法精确刻画头、尾实体与关系之间语义联系的强弱.

2.1.2翻译模型

●TransE:Mikolov等人在2013年提出了Word2Vec词表示学习模型和工具包44,利用该模型,Mikolov等

人发现词向量空间存在着有趣的平移不变现象.受该现象启发,Bordes等人于2013年提出了TransE模型,该模型将关系和实体表示为同一空间中的向量.给定事实(hr.),关系r的向量r被解释为头实体向量h与尾实体向量t之间的平移.因此,嵌入的实体h和可以通过平移向量r以低误差连接,即满足:hr=t,图2(a)为该方法 的简洁表示.对于每个三元组(h r ),TransE定义了如下的评分函数:

(2)

即向量hr与t的L或L距离

有r0 则UM的评分函数为: UM:非结构模型(unstructured model UMl)是TransE的简单版本,将知识图谱视为单关系图,并设置所

(3)

UM通常用作其他KGE方法的基本基准I5,但是它不能区分不同关系

图 2TransE TransH TransR 模型的基本思想说明

2.1.3复杂关系建模

TransE模型在大规模知识图谱上效果明显,但是由于其模型简单,导致TransE无法对知识库中的复杂关系建模,这里的复杂关系定文如下.按照知识库中关系两端连接实体的数目,可以将关系划分为1-1,1-N,N-1和N-N这4种类型,例如1-N类型关系指的是一个头实体会平均对应多个尾实体.我们将1-N,N-1和N-N称为复杂关 系.研究发现,各种知识获取算法在处理4种类型关系时的性能差异较大,例如:TransE在处理复杂关系建模时性能降低,这与其模型的假设有密切关系

例如:事实“比尔-克林顿在1993年到2001年间担任美国总统“可以被抽象为如下三元组:

将另一个事实“乔治沃克布什在2001年到2009年间担任美国总统",表述为如下三元组:

元组学习知识表示,TransE会推导出h=h,的错误结论.为了解决这一间题,近年来涌现了大量关于TransE的扩 显然,上述两个三元组共享相同的尾实体与关系,而具有不同的头实体,此时,如果使用TransE从以上两个三展模型,接下来按照实体与关系的不同表示空间进行划分,介绍其中的代表模型

(1) Point-Wise 空间

Point-Wise欧氏空间广泛应用于表示实体和关系,在向量或矩阵空间中投影关系嵌入,或者捕提关系交互.

TransH:TransH模型使得一个实体在涉及不同关系时具有分布式表示.如图2(b)所示,TransH将实体建模为向量,将每个关系r建模为法向量为w,的关系特定超平面上的向量r(r∈R).具体来说,对于一个三元组(h r 1),TransH首先将头实体向量h与尾实体向量t(h t∈R))沿法线w (w,∈R)投影到关系对应的超平面上,投影分别记为h和t,表示如下:

(4)

如果三元组(h z 0)成立,即hr=t,假设投影在超平面上由r以低误差连接,则TransH的评分函数定义为:

(5)

通过引入投影到关系特定超平面的机制,TransH使得每个实体在不同的关系中具有不同的表示形式.

TransR:TransE和TransH模型假定实体和关系嵌入在同一空间R中,但是关系和实体是完全不同的对象.一个实体是多种属性的综合体,面各种关系关注实体的不同属性,因此,某些相似的实体在实体空间中彼此接近,而在某些特定属性上不同,在对应的关系空间中应彼此远离.为了解决这个间题,Lin等人提出了TransR方法, 该方法在不同的空间(实体空间和关系空间)中对实体和关系进行建模,并在关系空间中进行翻译

TransR的基本思想如图2(c)所示,对于每个三元组(b r.),首先将头、尾实体向量向关系空间投影,使得原来在实体空间中与头、尾实体相似的实体在关系r空间中被区分开.具体来说,对于每一个关系r,TransR设置一个投影矩阵M ∈R,将实体(h t∈R)从实体空间投影到关系(r∈R)空间.利用投影矩阵,实体的投影向量定义如下:

(6)

其中,M 是从实体空间到的关系空间的投影矩阵.因此,TransR的评分函数定义为:

()

TransD:虽然TransR较TransE和TransH具有显著的改进,但它仍然存在一些缺陷:①对于关系r,头、尾实体共享相同的投影矩阵M,忽略了头、尾实体不同的类型和属性;②投影操作是实体与关系之间的交互过程,因此,投影矩阵仅由关系决定是不合理的;③与TransE和TransH 相比,矩阵-向量乘法使TransR 模型参数急剧增加,因此,TransR难以应用于大规模知识图谱.

为此,Ji等人提出改进模型TramsD,图3显示了其基本思想,每个形状表示出现在关系r的三元组中的一个实体对,M和M,分别是h和t的投影矩阵,w,(i=1.2.3)和w 是投影向量,h和t是实体的投影向量,矩阵.例如,给定三元组(h x 0),其向量为:b,w,t w∈R且r w,∈R,TransD 模型进一步学习了2个分别将头 满足hr=t(i=1 2 3).TransD为每个实体和关系定义两个向量,一个是实体/关系表示,另一个用于构造投影实体与尾实体投影到关系空间的投影矩阵M,M∈R*",具体定义如下:

(8)

图3TransD 的简单说明

显然,这里的投影矩阵M ,M ,与实体和关系均有关,并且利用两个投影向量构造投影矩阵解决了TransR面临的参数众多间题.对于三元组(t r ),TransD的评分函数定义如下:

(9)

STransE:Nguyen等人通过将两个简单的关系预测模型 SE与TransE进行组合,提出了一个新的嵌入模型STransE",该模型将每个实体表示为一个低维向量,并通过两个矩阵和一个平移向量表示每个关系,其评分函数定义如下:

(10)

体,而不是类似TransR对两者使用相同的矩阵.

连接许多实体对,而另一些关系则不连接)和不平衡性(不平衡性指一个关系中头实体与尾实体的数目可能不同), TranSparse:前面介绍的工作Trans(E H R和D)都忽略了知识图谱的异质性(异质性指知识库中一些关系为了处理这两个间题,Ji等人提出了 TranSparse 模型,它有 TranSparse(share)与 TranSparse(separate)两个版本.

为了克服异质性,TranSparse(share)模型中投影矩阵的稀疏度由关系连接的实体对数量决定,并且关系的两侧共享相同的投影矩阵.具体来说,TranSparse(share)为每个关系r设置了稀疏投影矩阵M (6 )∈R和平移向量

资源链接请先登录(扫码可直接登录、免注册)
①本文档内容版权归属内容提供方。如果您对本资料有版权申诉,请及时联系我方进行处理(联系方式详见页脚)。
②由于网络或浏览器兼容性等问题导致下载失败,请加客服微信处理(详见下载弹窗提示),感谢理解。
③本资料由其他用户上传,本站不保证质量、数量等令人满意,若存在资料虚假不完整,请及时联系客服投诉处理。

投稿会员:匿名用户
我的头像

您必须才能评论!

手机扫码、免注册、直接登录

 注意:QQ登录支持手机端浏览器一键登录及扫码登录
微信仅支持手机扫码一键登录

账号密码登录(仅适用于原老用户)