知识图谱构建技术综述.pdf

pdf,计算机与AI
文档页数:15
文档大小:1.75MB
文档格式:pdf
文档分类:计算机与AI
上传会员:
上传日期:
最后更新:

热点与综述

知识图谱构建技术综述

张吉祥,张祥森,武长旭,赵增顺

(山东科技大学电子信息工程学院,山东青岛266590)

摘要:知识图谱在医疗、金融、农业等领域得到快速发展与广泛应用,其可以高效整合海量数据的有效信息,为实 现语义智能化搜索以及知识互联打下基确.随着深度学习的发展,传统基于规则和模板的知识图谱构建技术已经逐渐被深度学习所替代.梳理知识抽取、知识融合、知识推理3类知识图谱构建技术的发展历程,重点分析基于卷积神经网络、循环神经网络等深度学习的知识图谱构建方法,并归纳现有方法的优劣性与发展思路.此外,深度学 习虽然在自然语言处理、计算机视觉等领域取得了较大成果,但自身存在依赖大规模样本、缺乏推理性与可解释性等缺陷,限制了其进一步发展.为此,对知识图谱应用于深度学习以改善深度学习自身缺陷的相关方法进行整理,分析深度学习的可解释性、指导性以及因果推理性,归纳知识圆谱的优势以及发展的必要性.在此基础上,对知识 图谱构建技术以及知识图谱应用于深度学习所面临的困难和排战进行械理和分析,并对该领域的发展前景加以展望.

关键词:知识图谱:信息抽取:语义网:深度学习:自然语言处理

开放科学(资源服务)标志码(OSID):

英文引用格式:ZHANG J X ZHANGX SwU CX et al.Survey of knowledge graph construction teehniques J]. 中文引用格式:张吉祥,张祥森,武长旭,等.知识图谱构建技术综述[J.计算机工程.2022.48(3):2337.Computer Engineering.2022 48(3) :23-37

Survey ofKnowledge Graph ConstructionTechniques

(College of Electronic and Iformation Eginceting Shandong University of Science and Techlgy -QingdaoShandong 266590 China) ZHANG Jikiang ZHANG Xiangsen WU Changxu ZHAO Zengshun

[ Abstraet] Knowledge graph has been rapidly developed and widely used in the/medical financial agricultural and other fields. It can eficiently integrate the effective informationof masive data and lay the foundation for semanticintelligent search and knowledge interconnection. With the developimentof deep learning the traditional knowledge graph construction teehnology based on rules and templates has been gradually replaced by deep leaning. This paperstudies the development process of three types of knowledge graph /construction technologies: knowledge extraction knowledge fusion and knowledge reasoning : focuses on khowledge graph construction methods based on deep learming such as Convolutional Neural Network( CNN) and Recurrent Neural Network ( RNN) ; and summarizes the advantagesand disadvantages of existing methods and develapment_ideas. In addition although deep learning has made greatachievements in Natural Language Processing( NLPputer vision and other fields its own defects such as reliancethe relevant methods for applying knowledge graph to deep learming to address the defects of the latter; analyzes the on large-scale samples lack of reasoning andintenpretability limit its further development.Therefore this paper sorts outand the necessity of development On this basis this paper studies and analyzes the construction technology of interpretability guidance and causal reasoning of deep learming: and summarizes the advantages of knowledge graphknowledge graph and the difficulties and challenges faced by the application of knowledge graph in deep learning andlooks forward to the developmemtprpspect of this field.

[Key words] knowledge graph;information extraction;semantic Web ; deep learning:Natural Language Processing( NLP)DOI: 10. 19678/j. issn. 1000-3428.

容获取与查询功能的Web1.0.步入到可参与互联网并进行内容制造的Web2.0.以及以知识互联为支柱的Web3.0,万物互联的时代使人们的生活更便

0概述

随着互联网的不断发展,人类从简单的具备内

利,信息获取更快速.但是,由于互联网的内容多 源、数据多样,大量的信息不能得到有效地利用,知识互联面临着极大挑战.知识组织的原则中表明知识的充分性、有序性和标准化原则,这就需要人们以一种新的视角去整合互联网的异源和异构知识信 息,从面适应用户的认知需求,而知识图谱的诞生为实现语义智能化检索以及知识互联打下了坚实的基础.

互联网信息量的快速增长给深度学习带来了巨度学习在自然语言处理(Natural Language Processing. 大的数据资源,通过对大规模数据的标注和使用,深NLP)、计算机视觉(Computer Version,CV)等领域取得了较好的成绩.但是,深度学习自身存在着很大发展,具体体现在3个方面:深度学习的效果在很大 的局限性,数据红利的消耗殆尽也限制了其进一步程度上依赖大规模的样本,缺乏先验知识,导致某些结果可能背离人类知识或专家知识:深度学习本质上是一种映射,是输人和输出之间的特征关系,不具 备因果推理性;深度学习缺乏可解释性,只是一种端到端模型,包含了众多的神经元和参数,人们无法清楚地解释每一个参数的意义《这也是深度学习最大的缺陷之一.基于以上原因,人们开始偿试将知识 图谱与深度学习相结合,官在打被人工智能发展中所出现的瓶颈.

徐增林等对知识图谱的定义、当前的大规模知识图谱、知识图谱构建技术以及知识图谱典型应 用进行了分析舅讨论,将知识图谱的构建分为知识抽取、知识表示、知识融合、知识推理4个方面.李消子等总结归纳知识表示及构建技术.文献[3-4]涉及深度学习技术的部分内容,均从深度学习相关学习用于构建知识图谱、知识图谱用于深度学习推. 技术应用于知识图谱这一角度出发,面本文从深度理、知识图谱指导深度学习、知识图谱提高深度学习可解释性等多个角度,对最近几年知识图遣与深度学习相结合的最新研究进展进行整理分析.除 此之外,还有一些综述是针对知识图溶构建的子任务,如命名实体识别(Named Entity Recognition,NER)、关系抽取(Relation Extraction,RE))等.其中:文献[5]对2014年-2019年的命名实体识别、 命名实体消歧和命名实体链接技术进展进行了详细的分析,以文本预处理、命名实体识别、命名实体消歧、命名实体链接为主要脉络进行综述;文献[6]主要针对关系抽取中的远程监督方法进行归纳,该 方法适用于结构化或半结构化的数据;文献[7-8]针对深度学习用于关系抽取进行分析综述,文献[7]分析了卷积神经网络在关系抽取中的应用,文献[8]分析了卷积神经网络、循环神经网络以及混合网络的

应用.

1知识图谱的定义与架构

1.1知识图谱的定义

1.2知识图谱的体系架构

本文闸述知识图谱构建技术的发展历程,对相关模型进行讨论,归纳知识抽取、知识融合、知识推理等相关研究成果,分析知识图谱用于深度学习时的可解释性、指导性以及因果推理性,在此基础上,对知识图谱未来的发展方向加以展望.

知识图谱的概念由Google于2012年提出,用于完善搜索引擎,是一种典型的多边关系图,由节点(实体《和边(实体之间的关系)组成.知识图谱本质上是一种语义网络,用于揭示万物之间的关系.如 图1所示.知识图谱旨在从多种类型的复杂数据中抽取概念实体和关系,是事物关系的可计算模型.按照知识的覆盖范围和领域的不同,知识图诺整体可以划分为通用性知识图谱和领域性知识图谱.随如语义搜索、智能间答、辅助决策等方面,其 着科技的不断发展,知识图谱在NLP领域虚用广泛已经成为人工智能发展的重要动动.

图1事物关系的可计算模型

知识图谱的一种通用表示形式是三元组形式,即 G=(Entity,Relation Entity). Entity 为三元组G中的头实体,Entity为尾实体,Relation为2个实体之间的关系,其中,Entity=[Entity ,Entity., Entity.1表示实体的集合,其包含了n种实体的念,Relation=[Relation ,Relation -- Relation ] 表述实体之间的关系集合,其包含了n种不同的关系.

示:第一部分是源数据的获取,即在各个类型的数据 知识图谱的体系架构分为3个部分,如图2所中获取有用的资源信息:第二部分是知识融合,用于关联多数据源的知识,扩大知识范围;第三部分是知识计算与知识应用,知识计算是知识图谱能力输出 的主要方式,而知识应用是将知识图谱与特定领域或业务相结合,从而提高业务效率.由于构建知识图谱的技术和深度学习紧密相关,因此本文重点分析知识图谱构建技术.

图2知识图谱的体系架构

Fig.2Architecture of knowledge gFaph

其为知识精细化工作以及辅助决策的实现方式.本 节根据知识图谱的体系架构详细介绍知识抽取、知识融合知识推理的相关研究.

2 知识图谱构建技术

知识图谱的构建需要应用到多方面信息处理技术.知识抽取从多种数据源中提取知识并存入知识图诺,是构建大规模知识图谱的基础.知识融合可以解决不同知识图谱的异构问题,通过知识融合,能够使得不同数据源的异构知识图谱相互联通、相互操作,从面提高知识图谱的质量.知识计算是知识图谱的主要输出能力,其中,知识推理是最重要的能力之一,

2.1 知识抽取

知识抽取主要分为命名实体识别和关系抽取2个方面.按照其发展历程,主要可分为3类方法,分别是基于传统规则和模板、基于统计机器学习、基于深度学习的知识抽取,本文主要对第3类方法展开分析.实体关系抽取的发展历程如图3所示.

图3实体关系抽取的发展历程

Fig.3 The development of entity relationship extraction

2.1.1命名实体识别

如下: 在命名实体识别方面,3类知识抽取方法具体

1)基于传统规则和模板的方法

在早期技术发展不成熟时,命名实体识别和关系抽取主要采用人工编写规则和模板的方法来实现.对于命名实体识别任务,首先由特定领域的专家构建大量的实体识别规则,如”人名:(姓氏字符相匹配从面抽取实体.1991年,RAU首次利 名字),地址名:(省市县-),然后将规则和文本用启发式算法和人工构造规则,从财经新闻中自动提取公司名称,准确率超过了95%,远高于人工抽取的准确率.但是,通过构造规则的方法会耗费大量的人力物力,并且一套规则只能适用于一种领域.其迁移性和泛化性很低.

2)基于传统机器学习的方法

基于机器学习的方法主要利用标注的数据进行模型训练,采用的模型有最大嫡马尔科夫模型(Maximum Entropy MarkovModel.MEMM)条件机场(ConditionalRandomFieldCRF等.2004年,对词的形态模式,词性等进行集成,通过KNN算法为66.6%.除此之外.2011年,LIU等在半监督学 解决了数据稀疏问题,在GENIAV3.0中总体F1值习框架下结合KNN分类器和CRF模型进行实体识别,该方法缓解了训练数据圆乏的问题,并且将KNN与半监督学习策略相结合,提升了模型的效播也是一个间题,因此,研究人员开始将命名实体识 果.基于机器学习的方法需要构造特征,其误差传别技术转向深度学习领域.

3)基于深度学习的方法

基于深度学习的方法对人工构造特征的依赖性大幅降低,解决了特征提取误差传播的问题,对于命名实体识别而言,主要的方法有卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent Neural Network RNN)两大类.2011年,COLLOBERT等将单层的CNN模型用于命名实 体识别,但是其丢失了长距离单词的有效信息.针对传统CNN模型学习速率低的间题,2019年.QIU等提出结合CRF的残差膨胀卷积神经网络(RD-CNN-CRF) 其利用RD-CNN捕获上下文特征,最后通过CRF捕获相邻标签的相关性,在CCKS-2017

数据集中,RD-CNN-CRF的性能高于BI-LSTM-CRF 并且学习速率更快.随着注意力机制的兴起和广泛 运用,2021年,JUN等针对传统CNN无法捕提句子中长期信息的问题,将注意力机制和CNN相融合,提出新的卷积神经网络模型ALLCNN(ACNN).其利用融合不同卷积核以及残差结构的CNN来捕提不同尺度的上下文信息,引人注意力机制增强模型捕捉上下文信息的能力.

除CNN模型外,RNN模型及其变体同样在NER任务中被广泛应用.HUANG等提出了LSTMBI-ESTM BI-LSTM-CRF 等模型 BI-LSTM可以综合考虑过去和未来的特征,因此,在CoNLL-2000和CoNLL-2003数据集中,BI-LSTM-CRF相对 其他模型准确率更高.受到上述研究的启发,支截[20]提出端到端的命名实体识别模型其通过CNN网络将单词级和字符级的嵌人向量整合在 一起并同时送入BI-LSTM-CRF模型中,取得了较好的效果.2018年,GREGORIC等采用多个独立的BI-LSTM单元,通过模型间的正则化提高了各个LSTM单元之间的多样性,太幅减少了参数量,在 CoNLL-2003数据集中比实献[20]方法的F1值高0.27%.2020年,RONRAN等改进HUANG等所提的模型,研究词嵌入、字符特征和词特征对实体识别的有效性,并利用CNN-BI-LSTM-CRF模型进行实体识别,其准确率得到有效提升.

除CNN与RNN之外,近年来,将Transformer系列模型应用于命名实体识别也成为研究重点.Transformer完全依赖于注意力机制,准确率更高并且训练时间更少,典型代表有文献[30]提出的针对命名实体识别的 Transformer(Transformer Encoderfor NER TENER)Google”提 出 的 BERT ( BidirectionalEncoder Representations from Transformers ) L 及 BERT- BIGRU-CRF(等衍生模型.2021年,曾青霞等22)提出一种结合自注意力机制的BI-LSTM-CRF(SelfAt-BI-LSTM-CRF) 其在 BI-LSTM-CRF 的基础上引入自注意力机制,可以获取句子的全局依赖性并捕捉其结构特征.罗熹等”同样将自注意力机制与BI-LSTM-CRF相结合.使用一种新的融合领 域字典的字符表示方法,有效提升了模型的实体识别能力.注意力机制的引人为命名实体识别等NLP技术注人了新的活力,拓展出了新的研究方向.近年来所出现的命名实体识别方法对比如表1所示.

表1命名实体识别方法对比

Table 1 Comparison of named entity recognition methods

方法类别 年份 方法 数据集 模型 方法特点 适用场景 评测指标 评测值%较准确地自动提取实体, 但构造规则的方法会耗基于传统规则 的方法 [99 启发式 方法 财经新网 启发式算法规则 费大量的人力,可移植性 财经新网 Acc 97.50集成了构闻模式,形态额 根差基于传统机器 20041HMMGENIAV3.0HMM实体识别等湖词、别称这6个特征,生物医学领域 式、词性、中心名词、特殊 66.60学习的方法 特征丰富,但需要人工构 F1造特征 在半监督框架下进行实基于传统机器 学习的方法 2011 CRF Tweets KNN分类器CRF 数据乏的间题,但需要 体识别,在效缓解了训练 推特博文等 通用领域 F1 80.20基于深度学习 的方法 20 CNN CoNLL-2003 Conv-CRF 首次引ACNN进行实体 识别,但去速了长距离单 通用领域 F1将实体识别视为序列标 间的有效信息基于深度学习 2019 CNN CCKS-2017 RD-CNN-CRF 注任务,利用残差账账卷 医学临床领域的方法 积捕获上下文,有效提高 了训练效率基于深度学习 202 构建多级CNN注意力机的方法 CNN CNN 别描获不同尺度的上下文医学临床领域 信息,提高了模型效率 90.49基于深度学习 2015 首次应用BI-LSTM指费的方法 RNN 2003 BI-LSTM-CRF 过去和末亲的特征,但需 要大量的特征工程 适用 F1 88.83基于深度学习 2016 RNN CoNLL-2003 LSTM-CNNs-CRFBI-LSTM 与 CNN 相结 不需要人工构造特,将 通用领域 F1 91.21的方法 合,是完全编到的硬型基于深度学习 的方法 RNN 并行RNN模型 大都成少了参数放,提高了 采用多个致的BLSTM. 通用领域 F1 '16练效率 确究单词和字符特征对基于深度学习 2929 实体识别的有效性,采用的方法 RNN CoNLL-2003CNN-BI-LSTM-GBEA层 BI-LSTM 减少输人 A 序列,以克眼长输人序列 通用领域 F1 91.10难以预测的问题 引人相对位置编码,可以分基于深度学习 的方法 20[9 former Trans- CoNLL-2003 TENER 别在润级与字答级表示 通用领域 F1 91.52基于保度学习 2019 Trats- 结构,可以深度挖据上下文 采H Transformer-Encoder的方法 former CGNEI1003 BERT 相关信息,归校型参数量 大,训练速率较侵 通用领域 F1 92.80基于保度学习 SelfAn-BI- 引人自注意力机制,更好的方法 202 formeT 00TN LSTM-CRF 地处理实体之间的长距 离依赖关系 通用领域 Acc 90.47基于深度学习 202 Trans- 将中文字符特征与临床的方法 former CCKS-2017 MHA-BiLSTM-CRF短识特征相结合,对医学 临床文本更具针对性 医学临床领域 F1 6′16

编写模板来匹配关系,这种基于规则和模板的方法会耗费领域专家大量的时间和精力,且可移植性较 差,无法适应数据的变化.

2.1.2 关系抽取

在关系抽取方面.3类知识抽取方法具体如下:

1)基于传统规则和模板的方法

2)基于传统机器学习的方法

传统的关系抽取主要采用人工编写规则和模板的方法来实现[3.一般是由特定领域的专家手动

对于关系抽取而言,传统的机器学习方法可以

资源链接请先登录(扫码可直接登录、免注册)
①本文档内容版权归属内容提供方。如果您对本资料有版权申诉,请及时联系我方进行处理(联系方式详见页脚)。
②由于网络或浏览器兼容性等问题导致下载失败,请加客服微信处理(详见下载弹窗提示),感谢理解。
③本资料由其他用户上传,本站不保证质量、数量等令人满意,若存在资料虚假不完整,请及时联系客服投诉处理。

投稿会员:匿名用户
我的头像

您必须才能评论!

手机扫码、免注册、直接登录

 注意:QQ登录支持手机端浏览器一键登录及扫码登录
微信仅支持手机扫码一键登录

账号密码登录(仅适用于原老用户)