实体消歧综述.pdf

消歧,计算机与AI
文档页数:16
文档大小:541.72KB
文档格式:pdf
文档分类:计算机与AI
上传会员:
上传日期:
最后更新:

实体消歧综述

段宗涛,李菲,陈柘

引用本文:段宗涛,李菲,陈柘.实体消歧综述门.控制与决策,2021 36(5):1025-1039.

在线阅读 View online:

您可能感兴的其他文章

Articles you may be interested in

区间租糙数信息系统的覆盖分类余度与属性约简

Coverage classification redundancy and attribte reduction of interval rough mmber information system控制 与决策. 2021 36(3): 677685

基于联合知识表示学习的多模态实体对齐

Multimoxlal entity alignment lased on joint knowledge representation leaming 控制与决策. 2020 35(12): 2855286410.13195/j.kzyjc.2019.0331

战术级兵棋实体作战行动智能决策方法

Intelligent decisionmaking method of tacticallevel wargames控制与决策. 2020 35(12): htps:/doi.or/10.13195/j.kzyje.2019.0504

机器人抓取检测技术的研究现状

Recent researches on rot autnmus grsp echlogy控制与决策. 2020 35(12): htps:/doi.or/10.13195/j.kzyje.2019.1145

可持续逆向物流网络设计研究进展及趋势

Progress and prspets o sustainable reverse lngistis nehrork design控制与决策. 2020 35(11): https//10.13195/j.kzyjc.2019.1175

实体消歧综述

段宗涛,李菲,陈柘

(长安大学信息工程学院,西安710064)

摘要:实体消歧是将文本中出现的命名实体映射到一个已知的无歧义的结构化知识库中的技术.实体消歧是自然语言处理中的关键问题,对自然语言的发展起到重要作用.实体消歧对知识图谱构建、语义搜索、知识问答、推荐系统等应用有着重要的意义.对此,从实体消歧的定义、分类和相关研究基础出发,对实体消歧技术进行全面于聚类的实体消歧、基于实体链接的实体消歧的研究内容以及研究现状进行详细综述;最后,对实体消歧的应用 的解析.首先,对实体消歧的五元组定义进行说明,并给出实体消歧的常用分类以及相关研究基础:然后,分别对基以及评测进行总结,并对未来研究方向进行了展望.

关键词:知识库:知识图谱:实体消歧:自然语言处理:实体聚类:实体链接

引用格式:段宗涛,李菲,陈柘.实体消歧综述[J].控制与决策.2021 36(5):1025-1039.

Entitydisambiguation:Areview

DUAN Zong-tao LI Fei CHEN Zhet

(School of Information Engineering Chang'an University Xi'an 710064 China)

Abstract: Entity disambiguation is a techology that maps named entities that appear in text to a kow unambiguousstructuredkdgebe Entitydisambiguationis aeyissueinatural lnguge procesing andplays nimprtant role apamoux jo uode oq o omgus ea go s! uoenquesp Amg aenu[ peu po uuopanap aq ugraph construction semantic search knowledge question answering remendation system and so on. Based onthe definition classification and related research basis of entity disambiguation a prehensive analysis of entity disambiguation technology is carried out. Firstly the five-tuple definition of entity disambiguation is explained and themon classification and related research foundation of entity disambiguation are given. Then the research contentof entity disambiguation based on clustering and entity disambiguation based on entity link and the research status is reviewed in detail. Finaly the application and evaluation of entity disambiguation are summarized and the futureresearch directions are summarized.

Keywords: knowledge base: knowledge graph: entity disambiguation: natural language processing: entity clustering: entity linking

0引言

实体链接的实体消歧,通常链接的目标知识库为知识图谱的实体消歧研究逐渐增多.例如 YAGO3、 Wikipedia(维基百科)²2) 随着知识图谱的发展,基于DBpedial4、Freebasel等也可作为实体消歧的目标知识图谱.实体消歧技术对于知识图谱的构建网以及语义检索、推荐系统、问答系统”有着重要的作用,也是建立语言表达和知识图谱联系的关键环节.

息检索已成为人们获取信息的一条主要途径.如何 随着互联网的快速发展以及信息时代的到来,信向检索者提供所需要的信息是信息检索技术研究关注的核心问题.2012年谷歌提出了知识图谱的概念,利用知识图谱增强搜索引擎的性能,目前,在搜索引擎上检索常会得到多个同名但并非相关的实体内过实体消歧技术可以解决这一间题. 容,这一问题源于不同实体可能有多个文本表达.通

的定义、分类以及相关研究:然后,对实体消歧技术所 本文首先对实体消歧进行简介,阐述了实体消歧涉及的研究内容以及研究方法进行详细说明,并介绍实体消歧的相关应用:随后,介绍实体消歧评测;最后,

实体消歧是指解决同名实体存在的一词多义歧义问题.实体消歧研究中常用的方法是基于

基于实体链接的实体消歧将实体指称项链接到歧.如图2所示,任务是将实体“迈克尔乔丹”链接到 目标候选实体列表中所对应的实体上实现实体消篮球运动员“迈克尔乔丹”,面不是其他“迈克尔乔丹”的实体

指出实体消歧技术存在的问题与面临的挑战

1实体消歧简介

1.1问题定义

于多个真实世界实体.确定一个实体指称项所指向 命名实体的歧义指的是,一个实体指称项可对应的真实世界实体就是命名实体消歧.

实体消歧系统通过以下一个五元组进行定义:

其中:N是待消歧的实体名集合:E是待消歧实体名的目标列表,通常为知识库或者知识图谱的实体;D是一个包含待消歧实体名的文本集,例如包含“陈光诚”的网页搜索集合;O是D中的实体指称项集合,一体名;K是实体消歧任务所使用的背景知识,关于目 个实体的指称项是在具体上下文中出现的待消歧实标实体的描述

图2基于实体链接的实体消歧实例

3)按照链接知识库类型划分,将基于实体链接的实体消歧分为基于知识库的实体链接和基于知识图谱的实体链接

1.2实体消歧分类

基于知识库的实体消歧重点是如何在大型文本知识库中提取上下文特征以及如何获取待消歧实体指称项的上下文信息

目前,按照不同的分类标准,实体消歧技术可以有多种分类方法

1)按照实体任务领域划分,实体消歧分为基于结歧. 构化文本的实体消歧和基于非结构化文本的实体消

基于知识图谱的实体链接主要利用知识图谱(KG)的结构来表示实体之间的关系以及候选实体的上下文特征

基于结构化文本的实体消歧的实体指称项通常被存储在数据库中,表示为一个结构化的文本记录.这种指称项缺少上下文信息,主要依赖字面意思和实体关系信息进行消歧.

1.3实体消岐分类

1.3.1词义消歧

词义消歧(WSD)9是一个开放性的自然语言处理问题,通过计算机分析并识别特定对象的词义信息.传统的词义消歧采用的方法主要包括两种:基于知识库的消歧方法和基于语料库的消歧方法.

为一段非结构化的文本,含有大量的上下文信息,主 基于非结构文本的实体消歧的实体指称项表示要利用指称项上下文信息进行消歧.

基于知识库的消歧方法也称为基于词典的消歧方法.通常消歧依赖于词典对语义的区分.消歧知识 库有Wordnet和Hownet等.Patwardhan等[l将自适应Lesk算法推广到基于语义关联的词义消歧方法:Niu等提出了3种符号编码模型进行消歧

2)按照有无目标知识库划分,实体消歧包括基于无监督聚类的实体消歧(无目标知识库或知识图谱)和基于实体链接的实体消歧(有目标知识库或知识图谱)

其指向的目标实体进行聚类.如图1所示,7个关于 基于聚类的实体消歧方法把实体指称项按“迈克尔乔丹”的指称项经过聚类后得到3个类,每个类代表一个实体,

基于语料库的消歧方法通常借助机器强大的计算能力实现词义消歧,主要包括无监督的消歧方法和有监督的消歧方法.无监督消歧方法又称为聚类词 义消歧[12-13] 有监督词义消歧需要标注数据进行消歧[4-15]

词义消歧与实体消歧具有相似性,二者都解决了语言中词汇歧义的间题.词义消歧与实体消歧的区别在于:1)词义消歧中的词义通常是固定的,可以通 过词典进行列举:而在实体消歧中,实体词义无法列举.2)实体词的词义数目大于普通词:实体词消歧场

图1基于聚类的实体消歧实例

景比普通词消歧场景丰富:实体词消歧可利用特征比普通词更加丰富.

1.3.2命名实体识别

命名实体识别,也称为实体抽取.命名实体识别的任务是识别文本中人名、地名、机构名、时间、日期等指定类型的实体.命名实体识别系统通常包括实体边界识别和实体类别标注两部分:实体边界识别确定一个字符串是否构成一个实体:实体归类将识 别出的实体事先划分为指定的不同类别.命名实体识别方法主要分为基于规则的方法、基于统计的方法和基于深度学习的方法

基于规则的方法不需要标注训练语料,能直接根据词典和规则进行分词16-17.然而,基于规则的方法的变化 有很大的局限性,可扩展性较差,难以适应各种数据

基于统计模型的方法通常使用统计模型来建模输入与输出之间的关联,并使用机器学习方法来学习模型的参数118-19.隐马尔科夫模型、最大、支持向量机、条件随机场等都是常用的机器学习模型.也有 研究者采用统计学习与规则相结合的方法2,取得了一些积极的研究成果

近年来,随着深度学习的流行,研究者利用神经网络进行命名实体识别工作.利用神经网络学习实体的低维表示,利用表示找出实体类别21-23]

实体指称项,它与命名实体识别非常类似两者的相 实体消歧任务的前提是识别出待消歧文本中的同之处是都要识别出文本片段中的实体,但它们之间也有不同之处.命名实体识别的目标是识别出文本中所出现的实体,面实体指称项识别的目标是尽可能识别出目标库中已存在的实体所对应的实体指称项.

2实体消歧方法概述

实体消歧方法主要按照目标列表是否给定分为基于聚类的消歧系统和基于实体链接的消歧系统.本节分别对上述实体消歧方法的研究现状进行分析,并对特殊的实体消歧进行罗列

2.1基于无监督聚类的实体消歧

库,通过比较各个实体的相似程度将相似度高的聚集 基于无监督聚类的实体消歧方法没有给定目标到一起,其核心间题是选取何种特征对指称项进行表示.根据如何定义实体对象与指称项之间的相似度,聚类法可分为以下5种.

1)基于词袋模型的聚类方法.

基于词袋模型的聚类方法也称为基于空间向量

模型的聚类方法.典型的方法是将当前语料库中实体指称项周围的词组成特征向量,然后利用向量的 相似度对指称项进行比较,并将指称项划分到最接近的实体引用项集合中.例如,Bagga等I24利用向量空月间模型(VSM)计算实体指称项词向量之间的相似度进行聚类:Liu等125利用标准空间向量模型以及HAC聚类算法进行消歧

不能很好地代表实体本身,而且实体之间的向量区分 基于词袋模型的聚类方法采用的特征向量往往不明确,从面影响聚类效果.

2)基于语义特征的聚类方法.

基于语义特征的聚类方法与基于词袋模型的聚类方法类似,但两者的构造方法不同.语义模型的特 征向量不仅包括词袋向量,还包含语义特征.例如,Pederson等26通过对文本进行分解得到实体的语义向量,并结合词袋向量得到更精确的聚类结果:Bollegala等I271先从一组文档中的名称获取语境表征和词袋向量,再利用向量对这组文档进行聚类.但是,基于语义特征的聚类方法很难达到最优.

3)基于社会化网络的聚类方法.

基于社会化网络的聚类方法遵循“物以类聚,人以群分”的原则.该类方法先构造社会化网络,再利用网络中的社会关系计算实体指称项之间的相似度128-29.Emami提出了一个基于聚类的人名消歧 系统,将从文本中提取实体之间的个人属性和社会关系映射到一个无向加权图(属性-关系图),使用聚类算法对图进行聚类,其中每个聚类包含指向一个人的web页面.

基于社会化网络的聚类方法较为注重实体之间的关系而忽略实体本身的特征以及实体的上下文特 征,并且网络构造难度大、复杂度高.

4)基于百科知识的聚类方法.

百科类网站通常会为每个实体(指称项)分配一个单独页面,其中包括指向其他实体页面的超链接,百科知识模型正是利用这种链接关系来计算实体指称项之间的相似度.例如 Han等[311从维基百科中构 建了一个大规模的语义网络,根据语义网络中的百科语义知识进行消歧:Sen21提出了主题模型,利用群体学习主题模型进行集体消歧.然而,百科知识覆盖性有限且实体种类较少,因此此类方法使用率较低

5)基于多源异构语义知识融合的聚类方法.

传统的聚类实体消歧方法所使用的目标知识库通常只有一种,覆盖度有限.采用多源异构知识可以克服这一缺点.多源异构知识是指知识源中存在大

量的多源异构知识,挖掘和集成不同知识源中的结构化语义知识表示模型来统一表示这些语义知识可以表示框架为结构化语义关联图.语义关联图中每个节点代表一个独立的概念,节点之间的边代表概念之间的语义关系,边的权重代表语义关系的权重.但是,该方法使用多个知识库进行聚类,多种数据源之间表达方式略有差异且组合难度大,从而导致实体聚类效 果差.

2.2基于实体链接的实体消岐

基于实体链接的实体消歧的任务是将给定实体图谱的实体链接. 体链接又分为基于知识库的实体链接以及基于知识

2.2.1候选实体的生成

候选实体的生成首先需要给定一个实体指称项,然后根据知识、规则等信息找到实体指称项所对应的候选实体列表.候选实体集合的质量主要由两个因选实体生成的方法主要有3种:基于词典构建的方 素决定:1)是否包含目标实体;2)候选实体的数目.候法、基于表面形式扩展的候选生成方法以及基于目标库的候选生成方法.

1)基于词典构建的方法.

这种方法主要针对目标库为维基百科知识库.利用维基百科的页面信息可构建实体指称与实体之 间的映射关系,生成指称-实体映射词典.常用方法为构建同义词词典及歧义词典.首先通过同义词词典将实体指称映射为规范形式,然后通过歧义词典获得实体指称的初始候选实体集合.一般通过字典生成的候选集合往往比较大,为了有效减小候选实体集合 大小,需要对初始候选集合中候选实体进行排序和过滤.排序指标主要有字表面相似性、上下文相似性以及实体流行度.例如,Ratinov等I33使用实体流行度对候选实体进行筛选.

基于词典构建的方法其候选生成效果并不理想,一方面会产生过多的候选实体,另一方面对目标实体 的覆盖度还不够高.

2)基于表面形式扩展的候选生成方法

命名实体指称通常情况为全名,但有时会碰到缩包括基于启发式的方法和基于监督学习的方法

①基于启发式的方法

对于实体指称的缩写形式,通过启发式模式匹配搜索实体指称周围的文本来扩展缩写.最常见的模被识别的实体看成一个子串,如果实体指称包含一个子串,则该实体为实体指称的扩展形式.Cucerzan3]采用一个缩写检测器,主要利用网页数据识别缩写的扩展,然面,基于启发式方法的表面形式扩展无法识别一些复杂的缩写的扩展形式

②基于监督学习的方法.

基于监督学习的方法需要标记数据,利用标记数据找到候选实体.Zhang等39提出了一种基于监督体作为候选实体

3)基于目标库的候选生成方法.

由于目标知识库(例如维基百科、DBpedia等)包含多种页面数据,可以利用这些页面数据找到候选实体.主要利用消歧页面以及重定向页面的信息生成候选实体,对于有歧义的实体,消歧页面进行了总结, 重定向页面中汇总了提及以及其对应的别名.例如,杨光等I利用DBpedia知识图谱数据中提供的数据集进行候选实体生成.从消歧数据集中添加候选实体并利用提供的数据集,结合实体先验概率生成候选实体列表.

2.2.2基于知识库的实体链接系统

基于知识库的实体链接系统的目标知识库通常为维基百科知识库.最常用的两种候选实体链接方法是局部实体链接和协同实体链接.

1)局部实体链接

下文信息的特征表示,然后计算实体指称以及实体表 局部实体链接通常得到实体指称以及实体的上示的相似度以选出目标实体.局部实体链接方法主要包括传统特征方法和表示学习方法两种

①传统特征方法.

传统特征方法的核心是如何手工设计有效的特征,其中实体的表示很简单.例如,Honnibal等11利 用Bow模型得到实体指称项和候选实体的向量,将余弦相似度得分最高的作为候选实体

由于候选实体的背景知识、先验知识和实体类别信息对于实体消歧也很重要,许多研究者将这些信相关扩展变化.基于表面形式扩展的候选生成方法的背景知识和先验知识包括实体流行度(实体在知识库中的概率)、实体指称项与实体的关系(指称项指向实体的概率)

资源链接请先登录(扫码可直接登录、免注册)
①本文档内容版权归属内容提供方。如果您对本资料有版权申诉,请及时联系我方进行处理(联系方式详见页脚)。
②由于网络或浏览器兼容性等问题导致下载失败,请加客服微信处理(详见下载弹窗提示),感谢理解。
③本资料由其他用户上传,本站不保证质量、数量等令人满意,若存在资料虚假不完整,请及时联系客服投诉处理。

投稿会员:匿名用户
我的头像

您必须才能评论!

手机扫码、免注册、直接登录

 注意:QQ登录支持手机端浏览器一键登录及扫码登录
微信仅支持手机扫码一键登录

账号密码登录(仅适用于原老用户)