时态知识图谱补全的方法及其进展.pdf

补全,计算机与AI
文档页数:12
文档大小:1.25MB
文档格式:pdf
文档分类:计算机与AI
上传会员:
上传日期:
最后更新:

时态知识图谱补全的方法及其进展

申宇铭,杜剑峰

广东外语外贸大学信息科学与技术学院,广东广州510420

摘要

时态知识图谱是将时间信息添加到传统的知识图谱而得到的.近年来,时态知识图谱补全受到了学术界的高度关注,并成为研究热点之一.总结了目前时态知识图谱补全的两大类方法,即基于符号逻辑的方法和基于知识表示学习的方法,比较分析了两类方法的优缺点,展望了未来时态补全方法的发展方向,还总结了7个用于时态知识图谱补全的基准数据集和若干代表性模型在基准数据集上的评测结果.

关键词

时态知识图谱:本体:表示学习

中图分类号:TP18

文献标识码:A

doi: 10.11959/).issn.2096-0271.

methodsandprogress

Temporalknowledgegraphpletion:

School of Information Science and Technology Guangciong University of Foreign Studies Gusngzhou 510420 China SHEN Yuming DU Jianfeng

Abstract

Temporal knowledge graph (TKG) are obtained by adding the time information of real-world knowledge to classicalknowledge graphs. Recentl; TKG pletion has drawn much attention and bee a hot topic in research. Two mainmethodologies for TKG pletion were summarized one based on symbolic logic whereas and the other based on knowledge repreentatin leaming The pros and cos of these two diffrent methodologies were discused highlightingsome directions for enhancing TKG pletion in future research. Also seven benchmark datasets for TKG pletionand evaluation results of several typical models on the benchmark datasets were introduced.

Key words

temporal knowledge graph ontology representation learning

1引言

在人工智能飞速发展的背景下,知识图谱(knowledge graph)被普遍地认为是人工智能技术和系统中的重要组成部分, 在智能搜索、网络安全、金融风险控制及电子商务等诸多领域得到了广泛应用.传统的知识图谱以(实体,关系,实体)或(实体,属性,属性值)三元组集合的方式来表达现实世界的概念、实体、事件及三者之间 的关系.比如,三元组(姚明,身高,2.26米)和(姚明,国籍,中国).2012年5月,谷歌公司发布了谷歌知识图谱(Googleknowledgegraph),宣布以此为基碼构建下一代智能化搜索引擎.这是知识图谱名称的由来,也标志着大规模知识图谱在语义搜索中 的成功应用.事实上知识图谱技术溯源已久--从20世纪70年代的专家系统(expertsystem),到万维网之父Tim Berners-Lee提出的语义网(semantic web),再到他后来提出的链接数据(linkeddata),都温是人工智能对数据处理与理解需求逐日 是知识图谱的前身.可以说,知识图谱的升增加而导致的必然结果.

图1时态知识图谱示例

识图谱中的知识也是不完备的,为了实现最 与传统的静态知识图谱相似,时态知大价值,其需要不断地消化吸收新数据,以完善知识体系.近年来,时态知识图谱补全(temporal knowledge graph pletion)方法应运而生,受到了学术界的高度关注,知识图谱的现有四元组数据,建模预测真实存在的新四元组.这些预测得到的四元组经过验证后,可被添加到时态知识图谱中,作为其演化的结果.时态知识图谱补全的方法在构建大规模知识图谱、相似度计 算、关系抽取,以及基于知识图谱问答等任务方面展现出巨大的应用潜力.

并成为研究热点之一.这类方法基于时态

时间是自然界中实体都具有的重要属性,不少知识图谱(如Freebase、间标记的知识.将时间信息引入三元组中 Wikidata、DBpedia、YAGO等)具有时所构成的四元组集合称作时态知识图谱(temporalknowledge graph).全球事件知识图谱和冲突事件知识图谱都是典型的基于事件的时态知识图谱.此类知识图谱不仅包含了事件之间的共指、因果 和时序等关系,还描述了事件之间的规律和演化模式,对传统的知识图谱补充了时间信息,因而具有更大的应用价值.时态知识图谱示例如图1所示.

为了能够及时追踪到补全方法在时态知识图谱上的发展和应用,本文首先给出时态知识图谱补全的问题定义,回顾代表性的时法进行对比分析,给出可能的结合途径,最 态知识图谱补全方法,然后对不同类别的方后总结当前时态知识图谱评测的7个基准数据集,并且给出几个代表性的补全模型在其中3个基准数据集上的评测结果.

2问题定义

本节给出时态知识图谱及其补全过程

的定义,并介绍相关的评测任务.

定义2.1时态知识图谱.一个时态知识图谱是一个四元组的集合.形式地说,任意给定实体集合E、关系集合R、有穷时间截集合T,时态知识图谱G是笛卡儿积E×R×E×T的一个子集.

特朗普是美国总统”可以表达为四元 比如,事件“2016-2020年期间,组(美国,总统,特朗普,[2016 2020]).类似地,事件“拜登于2021年当选美国总统”可以表达为四元组(美国,总统,拜登,2021).

定义2.2时态知识图谱补全.令E×RxExT的一个子集W表达现实世界中成立的事实,G为W的一个真子集.时态知识图谱的补全是指:由G出发,推理出不属于G但是属于W的事实.

行合同,b 1),(a,签订合同,c )(a、履行合 例1假设W=1(a,签订合同,b,r).(a,履同,c 41)},且G=(a,签订合同,b r) (a 履行合同,c 1)1,则需要从G出发推理出事实(a,履行合同,b 11)和(a,签订合同 c t )

时态知识图谱的补全评测任务主要有两个:给定头实体a、关系r和时间截t,补全尾实体,即(a r.? r);给定尾实体b、关系r和时间截r,补全头实体,即(2 x.b 0).

与传统的知识图谱补全间题不同,时态知识图谱的补全更加强调事实成立的时效性,比如,四元组(特朗普,当选,美国总统,2016)和(特朗普,卸任,美国总统,2015),第一个四元组是真实事实,而第二个四元组是虚假事实,去掉时间截后,所得的两 个三元组(特朗普,当选,美国总统)和(特朗普,卸任,美国总统)都是真实事实.因此,如何将事实成立的时效性信息融入传统的补全模型是重待解决的问题.

3时态知识图谱补全方法

目前,依据对符号处理的不同方式,时一类是基于符号逻辑的方法,此类方法通 态知识图谱的补全方法主要分为两大类:过构建领域本体,运用饱和度技术,推理出隐含存在的真实四元组;另一类是基于知识表示学习(knowledge representationlearning)的方法,此类方法将符号映射到实值空间,采用数值运算评估四元组的 真实程度.

3.1基于符号逻辑的方法

基于符号逻辑的时态数据查询回答方法又分为两类:一类以领域为中心,另一 (logicbased temporal query answering)类以时间为中心.

以领域为中心的方法假定本体的构建语言为描述逻辑,查询语句为包含时态算子 (nexttime previoustime since-结词的一阶时态逻辑公式.以此为基础, time untiltime futuretime)和否定联BaaderF等人分析了基于描述逻辑SHQ本体的时态查询计算复杂性:BorgwardtS等人-提出了基于描述逻辑DL-Lite族和EL本体的时态查询推理算法,并分析了 算法的计算复杂性.

以时间为中心的方法假定本体的构建语言为时态描述逻辑,查询语句为包含时态算子 (next-time previous-time since-time untiltime futuretime)的-阶时态逻辑公式.以此为基碼,ArtaleA等人设 计了一种时态描述逻辑语言TQL,其包含past-time和future-time两个一元时态算子,并在限定时态念只出现在术语公理左侧的情形下,证明了该逻辑语言支

持时态查询的一阶重写.Gutierrez- BasultoV等人a在限定时态查询语言为时态原子语句的情形下,证明了时态本体EL-LTL的查询问题是不可判定的,继而通过引入若干语法上的限制条件识别出EL-LTL的若干可判定子片段,并证明了在某些子片段上的时态查询回答是 多项式时间可以完成的.Artale A等人9全面研究了时态DL-Lite-LTL族下时态查询的一阶重写问题,较完整地分析了时态查询问题的计算复杂性.

有xy r:R(x y,)→Q(xy,r1)",其中谓词 例2假设本体只包括一条规则“对所R、Q分别表示签订合同和履行合同,考虑到例1中集合G=|(a,签订合同,b.).(a,履行合同,c r1)1,由上述规则可以推理出隐含事实(a.履行合同,b. 1).对于时态查询q=(a.履行合同.1).隐含的事实(a,履行 合同,b.r1)满足该时态查询q.

对比两类方法,以领域为中心的方法在查询语言的表达能力上要强于以时间为中心的方法,而以时间为中心的方法在本体的表达能力上要强于以领域为中心的方法.同时,基于符号逻辑的方法在实际应 用中难以覆盖大量真实的四元组,召回率较低,而且构建本体时也要付出较高的人工成本.

3.2基于知识表示学习的方法

本节先简要回顾针对传统知识图谱的表示学习代表性方法,再以此为基础,综述针对时态知识图谱的表示学习方法.知识表示学习方法的基本原理是将给定的三元组数据映射到低维、高密度 的数值空间,通过数值运算评估未知三元组的真实程度.依据三元组评分函数的不同类型,传统知识图谱的表示学习方法大致分为3类:第一类是基于平移距

离模型的方法,第二类是基于矩阵分解 模型的方法,第三类是基于神经网络模型的方法.

基于平移距离模型的方法根据三元组中头尾实体表示向量的距离来估计三元组的真实性.BordesA等人u提出了第一失函数r-12来估计三元组的 个平移距离模型TransE.该模型采用损真实程度,其中#为头实体向量,r为关系实体向量,1为尾实体向量,L1和L2分别表示1-范数和2-范数,而真实程度通常可以被定义为损失函数值的相反数. 根据最优化目标,真实三元组的损失函数值应该趋向于零,因此TransE不太适用于一对多、多对一或者多对多的关系建模.针对TransE模型的局限性,此后陆续涌现了TransH""1 TransRizl TransDi3TransGRotatE等模型.

基于矩阵分解模型的方法采用M1形式的评分函数来评估三元组的真实程度,其中M,是关系依赖的矩阵,和r分别是头、尾实体向量.Nickel M等人提模型,用于三元组预测.此后,他们又提 出了第一个矩阵分解模型,即RESCAL出了参数更少的全息嵌入(holographicembedding HolE) 模型ui. Yang B S等人将关系依赖的矩阵看作以实数构成的对角矩阵,提出了DistMult模型.TrouillonT等人u使用复数而不是实数构造头尾实体向量,并将关系依 巅的矩阵看作以复数构成的对角矩阵,提出了ComplEx模型.Liu H X等人(20]为关系依赖矩阵引入正态性和可交换性约束来表达类比性质(比如北京与中提出了ANALOGY模型,并证明了该模 国的关系类似于巴黎与法国的关系),型是Ho1E和ComplEx等模型的一般化形式.此后,研究人员还陆续提出了SimplE121 Tucker1z1等模型.

方法采用神经网络形式的评分函数来评 基于神经网络模型的知识表示学习估三元组的真实程度.BordesA等人提出了语义匹配能量(semanticmatchingenergy,SME)模型,该模型将头实体与关作为第一层网络,再将两个交互模型的输 系的交互模型和尾实体与关系的交互模型出组合起来构成第二层网络.Socher R等人提出了神经张量网络(neuraltensornetwork,NTN)模型,该模型采用头尾实体各自的线性变换模型以及它们之间交线性变换模型都使用不同的关系侬 互的线性变换模型来构造神经网络,其中矩阵.DongX等人u5提出了多层感知器(multilayer perceptron MLP) 模型 该模型采用关系和头尾实体各自的线性变换模型共3个线性变换模型来构造神经网络,3个线性变换模型中使用的变换矩阵 都不依赖于关系.

除了这3类方法,还有文献讨论了利用知识图谱外部信息的知识表示学习方法,包括结合实体描述信息的方法、结合实体类型信息的方法、结合关系路径信息的方法、结合逻辑规则的方法等.更多的传统知 识图谱的表示学习方法参见参考文献[3].

传统知识图谱中的知识在大多数情况下只在特定的时间内有效,而一些事实(如演化的事件)往往出现在一个时间序列中.为了对时间序列中的事实进行表示学习,近年来涌现了不少针对时态知识图 谱的补全方法.依据对时间截的处理方式,这些方法可以大致分为两类:第一类是时间截单独编码方法,第二类是基于序列学习的方法.

建模为向量、矩阵或平面,再将时间截的 时间藏单独编码方法显式地将时间藏信息直接用于知识图谱的补全.Jiang T S等人口26率先提出结合时态信息的知识图谱补全模型,该模型由两部分构成,其中一个

一个部分由3种时态一致性约束(先后顺序 部分是由TransE获得关系的表示向量,另关系、时态不相交性、时态区间有效性)构成.模型通过一个时态演化矩阵来刻画不同关系之间的时态依赖性,具体地说,任意评分函数定义为:frr-1l T-l.z 给定两个时序依赖关系r和r.它们的时序其中矩阵T是一个能够编码时序关系对的非对称矩阵,此评分函数基本思想如图2所示.

根据评分函数有rTr但是rTr. 在图2中,r是先于r的时态关系,Dasgupta S S等人结合了模型TransE和TransH的特点,提出了HyTE时态表示学习模型.该模型首先将时间截建模为关系依赖的超平面,然后利用TransH模型将头、尾实体投影到该平面,最后利用TransE模型完成知识图谱的补全工作. MaYP等人和LacroixT等人z都将时间藏看作第4个维度,分别扩展了Tucker和ComplEx张量分解模型,再将时间截的表示向量直接用于四元组真实程度的估计.Jain P等人在Lacroix工作的基础上,将先后顺序关系和循环关系(比如 奥运会每隔3年举办)的信息增加到评分函数中,用于图谱的补全.XuCJ等人基于RotatE模型提出了时态旋转模型,该模型将时间截建模为旋转复向量,将实体和关系表示为复向量,通过旋转复向量与实体表示复向量的内积运算,将时态信息 融合到实体的表示向量中,并利用基于距离TransE模型完成知识图谱的补全.时间截单独编码方法将时间信息看成连通实体与实体、关系与实体及关系与关系的桥梁.

基于序列学习的方法先设计一个序列学习模型,将时态信息融合到实体或关系的表示向量中,再用已有的表示学习模型估计带有时态信息三元组的真实程

资源链接请先登录(扫码可直接登录、免注册)
①本文档内容版权归属内容提供方。如果您对本资料有版权申诉,请及时联系我方进行处理(联系方式详见页脚)。
②由于网络或浏览器兼容性等问题导致下载失败,请加客服微信处理(详见下载弹窗提示),感谢理解。
③本资料由其他用户上传,本站不保证质量、数量等令人满意,若存在资料虚假不完整,请及时联系客服投诉处理。

投稿会员:匿名用户
我的头像

您必须才能评论!

手机扫码、免注册、直接登录

 注意:QQ登录支持手机端浏览器一键登录及扫码登录
微信仅支持手机扫码一键登录

账号密码登录(仅适用于原老用户)