医学知识图谱构建关键技术及研究进展.pdf

pdf,计算机与AI
文档页数:25
文档大小:1.51MB
文档格式:pdf
文档分类:计算机与AI
上传会员:
上传日期:
最后更新:

医学知识图谱构建 关键技术及研究进展

谭玲,鄂海红,匡泽民”,宋美娜!,刘毓!,陈正字,谢晓!,李峻迪,范家伟,王晴川,康霄阳!1.北京邮电大学,北京100876:2.首都医科大学附属北京安贞医院,北京100029

摘要

随着互联网技术的不断选代更新,对海量数据的语义理解变得越来越重要.知识图谱是一种揭示实体之间关 系的语义网络,医学是知识图谱应用较广的垂直领域之一,医学知识图谱的构建也是目前国内外人工智能领域研究的热点.从医学知识图谱本体构建出发,依次对命名实体识别、实体关系抽取、实体对齐、实体链接、知识图谱存储、知识图谱应用进行综述,详细介绍了近年来医学知识图谱构建过程中涉及的难点、现有技术.挑战及未来研究方向,并介绍了医学知识图谱应用,最后对未来发展方向进行了展望.

关键词

医学知识图谱:构建:关键技术:研究进展

中图分类号:TP3

文献标识码:A

doi: 10.11959/j.issn.2096-0271.

Keytechnologiesandresearchprogressof medicalknowledgegraphconstruction

TAN Ling' E Haihong' KUANG Zemin² SONG Meina’ LIU Yu' CHEN Zhengyu' XIE Xiaoxuan' LI Jundi' FAN Jiawei' WANG Qingchuan' KANG Xiaoyang 2. Beljing Anzhen Hospital Capital Medical University Beljing 100029 China 1. Bejing University of Posts and Telemunications Bejing 100876 China

Abstract

With the continuous iterative updating of Intermet technology the semantic understanding of massive data is being more and more important. Knowledge graph is a kind of semantic network that neveals the relationship between entities.Medicine is oe of the most widely used vertical felds of knowledge graph. The cstuction of medical kowedge graph isalso a hot research in the feld of artificial intelligence at home and abroad. Starting from the ontology construction of medialknowlee gaph me entity negniton entity relatship extactin tity alimnt entity linking knwlede gah strageadaliatfl gah eviwe hediffulies existin chlos challenes andutuereahdirections in the proess of cstructing medical knwledge graph n recent years wee intd. Finally the application ofknowlee graphand tefteelt dirtionfmdial kwldgah weis.

Key words

medical knowledge graph construction key technology research progress

程来阐述,主要框架如图1所示. 本文主要按照医学知识图谱构建的流

1引言

人工智能的发展已经进入快车道,作为新一轮科技革命和产业变革的重要驱动力量,人工智能技术正在深入各行各业,悄无声息地改变着人们日常生活的方方面面.知识图谱是由谷歌(Google)公司在 2012年提出的一个概念,本质上是语义网的知识库.知识图谱由节点和边组成,节点表示实体,边表示实体与实体之间的关系,这是最直观、最易于理解的知识表示和实现知识推理的框架,奠定了第三代人 工智能研究的基".

2医学本体构建

对本体需求的增加,促进了语义网络的发 网络上文本数据的爆炸式增长,以及展,使得基于文本的本体自动构建成为一个非常有前途的研究领域.文本本体学习是一种以机器可读形式(半)自动地从文本中提取和表示知识的过程.本体被认为是 在语义网络上以更有意义的方式表示知识的主要基石之一.

目前,医学是知识图谱应用较广的垂直领域之一,也是目前国内外人工智能领域研究的热点.医学知识图谱在临床诊断、治疗、预后等方面均可发挥较大的作用.类的医疗卫生带来革命性的变化叫.由于医 高效地将知识图谱应用于医学领域将给人学领域数据的特殊性,医学知识图谱的构建也面临不少机遇与挑战.

2.1本体构建定义及任务

万维网联盟(WorldWideWebConsortium,W3C)将本体论定义为用于 描述和表示知识领域的术语.本体是一个数据模型,它表示一组念以及一个域中这些概念之间的关系.

本体构建可以定义为从头创建本体或重程.构建本体的过程包括以下6个任务: 用现有本体以丰富或填充现有本体的选代过

本文对医学知识图谱构建的关键技术及应用进行了全面的梳理,对各类公共数据集、处理医学间题的特异性难点及现有 解决办法进行了综述.通过阅读本文,可以了解医学知识图谱的发展现状、未来发展方向以及面临的挑战,便于医学知识图谱研究者参照对比,加快医学知识图谱领域的研究及临床落地应用.

指定一个域以创建定义良好的术语和概念:

识别域中的关键术语、概念及其关系;

建立或推断描述域结构属性的规则

图1医学知识图谱构建框架

的多层次过程),建立了一种基于本体的本 体开发方法,该方法利用现有本体对文本文档进行分析,构建了命名和本体术语体系.这使得本体开发过程自动化成为可能.

和公理:

使用支持本体的表示语言(如资源描述框架(resource descriptionframework,RDF)、资源描述框架模式 (resource description frameworkschema,RDFS)或网络本体语言(Webontology language OWL))对构建的本 体进行编码(表示):

再者,由于医学信息的特殊性,对医学信息的匿名化处理在本体构建过程中也是一个难点.2017年,Polsley S等人叫提出一 种可识别被映射到本体论术语的受保护健腺倍息 ( protected health information PH1)的方法,临床专家使用数百份医学文献对该方法进行了评价,F分数达98.8%,在后续处理中保留语义信息具有一定的前 景.但该方法仍有较大的局限性,需要不断地进行优化.

将构建的本体与现有本体结合(如果现有本体可用);

通过使用通用和特定的评估度量来评估构建的本体.

2.2医学本体构建难点及现有技术

随着对许多医学本体构建研究的深人,目前医学本体库的构建主要存在以下难点.

2.3医学本体常用数据集

中的人为干预.目前实现本体构建过程的 首先应该尽可能减少在本体构建过程完全自动化是不现实的,怎样减少人为干预是目前医学本体构建的一个难点和热点.2018年,MazenA等人=提出了一种新的本体自动生成框架,即链接开放数据项目授data approach for automatic biomedical 权的生物医学本体自动生成(linkedopenontology generation LODABOG)方法.与现有框架相比,参考文献[3]的评估结果显示,大多数本体生成任务的结果有所改善.该参考文献提出的LOD-ABOG框架表明,现有的LOD源和技术是一个很有前途 的解决方案,可以在更大程度上实现生物医学本体生成和关系提取过程的自动化.另外,与现有的框架在本体开发过程中需要额域专家的参与不同,该参考文献提出束时参与到本体的改进中. 的方法只要求领域专家在本体构建周期结

几种,见表1. 医学本体较常用的数据集主要有以下

2.4挑战及未来研究方向

首先,由于医学数据的多样性,在设计医学本体构建系统时,无论是来自小的静态 文本集合的数据,还是万维网上的海量异构数据,都需要进行数据转换.目前,针对此问题的文献较少,有待后续研究的推进.

其次,医学的临床数据会不断变化,如何根据患者的当前情况创建动态的最佳保护服务,为患者提供个性化的实时医疗护 理也是医学实体构建过程中的一大问题.

3医学命名实体识别

3.1命名实体识别定义

2019年,LytvynV等人提出了从自然文本中提取知识的方法和算法(包括一个基于本体引入的概念、关系、谓词和规则

命名实体识别(named entityrecognition,NER)又称专名识别,指识

别文本中具有特定意义的实体(主要包括 人名、地名、机构名、名词等).通常包括两部分:一是识别实体边界:二是确定实体类别(人名、地名、机构名或其他).英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),因此识别实体边界相对容易,任务的 重点是确定实体的类别.和英语相比,汉语命名实体识别任务更加复杂,实体边界的识别更加困难.

3.2医学命名实体识别难点及现有技术

与传统的命名实体识别相比,医学名词实体一般比较长,长实体名词常常包含多个名词实体,造成医学实体边界识别的难度较大.此外,医学名词存在大量的同确定实体类别的难度. 义词替换、缩写以及一词多义现象,加大了

针对医学实体中大量同义词替换以及大量缩写的间题,2020年KatoT等人提出了一种共享和学习标签组件嵌入的方法,通过对英语和日语细粒度NER进行实验,证明了该方法比标准序列标记模型性能更 好,特别是在低频标签情况下.

为了解决医学名词实体较长、识别边界困难的间题,2020年,TanCQ等人提出了边界感知的神经网络模型来预测实体的类别信息.该模型可以先定位出实体 的位置,然后在对应的位置区间内进行实体类型的预测.在公开的嵌套NER数据集上,该模型取得了超越以往方法的效果,并在预测上取得了更快的速度.

另外,大多数NER系统只处理平面实体,忽略了内部嵌套实体,导致无法捕获 底层文本中的细粒度语义信息.为了解决这个间题,2018年JuMZ等人m提出了一种新的神经模型,通过动态叠加平面NER层来识别嵌套的实体.模型将长短时记

表1医学本体常用的数据集

名称 数据类型 数据量SNOMED-CT临床医学术语标准 146 217条UMLS 一体化医学语言系统 概念:3000 000个 名称:12000000个OMAHA 中文临床医学术语集 概念:964074个 术语:1211053个关系:2886015条TCMLS 中医药学语言系统 映射:1343 919个 概念:100000个术语:300 000个 语义关系:1270000条OpenKG 中文症状、中医医案,数据集:139个CMeKG 中医经方等 医学文本数据 疾病:10000余种药物:近20000种诊疗技术及设备:3000种 症状:10000余种概念、关系及属性: 1 560 000个

忆 (long short term memory LSTM) 层的输出合并到当前的平面NER层中,为检测到的实体构建新的表示,并将它们提供给下一个平面NER层.模型动态地堆加平面NER层,直到没有提取任何外部实体.该模型针对特定数据集(具有多种类别和嵌套的实体)具有较好的实验 效果.

对于医学实体中常见的一词多义现象,2019年Pham TH等人在细粒度NER任务中进行了多任务学习和语境化单词表征的有效性研究,并研究了多任务序列标记的不同参数共享方案、神经语 言模型学习和不同单词表示设置下的学习.最终得到的最佳模型不需要任何额外的人工操作来创建数据和设计特征,F分数达到83.35%.LuoY等人提出了级表示和文档级表示.在句子级,考虑到 一个增加了上下文表示层次的模型:句子单个句子中单词的不同贡献,通过标签嵌入注意机制来增强从独立的双向长短时记亿 (bidirectional long short term

memory,BiLSTM)学习到的句子表征. 在文档级,采用键值存储网络记录对上下文信息相似度敏感的单个单词的文档感知信息.在基准测试的实验结果数据集(CoNLL-2003和Ontonnotes 5.0英语数据集,CoNLL-2002西班牙语数据集)上获得了最先进的结果.

3.3医学命名实体识别常用数据集

医学命名实体识别较常用的数据集主要有以下几种,见表2.

3.4挑战及未来研究方向

(1)多类别实体在不同语境、不同词性、不同类别下的应用

的魅力所在,但对于机器来说,丰富多彩 语言的博大精深、丰富多彩正是语言

表2医学命名实体识别常用的数据集

名称 数据类型 数据量BC5CDR 疾病 5818种疾病BC5CDR 药品/化学物质 409种药品,3116条药品一 疾病相互作用关系BC4CHEMD 药品/化学物质 10000篇摘要BC2GM 药品/化学物质 24583个基因实体2010i2b2/VA疾病 NCBI 疾病 793个PubMed摘要 22个概念提取系统、21个断言分类系统、16个关系ShARe/CLEF 疾病 300篇临床报告 分类系统2013LINNAEUS CHEMDNER 化学物质 物种 PMCOA的100个全文文档 10 00O篇PubMed描要GENIA RNA、蛋白质、 2 000篇MEDLINE摘要细胞系、细胞类JNLPBA DNA和RNA 基因、蛋白质、 2 40O篇MEDLINE描要CCKS2017 病历 1600个文档CCKS2018 病历 1000个文档

很难归纳和总结.将机器语言变得更加智 的语言使语言的使用规则变得更加复杂,能,理解多类别的实体在不同语境、不同词性及不同类别下的应用是一个重要的研究方向.

(2)嵌套实体的研究

常见,绝大部分医学长实体中会存在实体 在医学领域中,实体嵌套的现象非常嵌套,如何更有效地识别实体嵌套是医学命名识别实体领域必须面对且具有重要意义的问题.

(3)实体识别与实体关系抽取的结合

输入一个句子,通过实体识别和关系抽取联合模型,直接得到有关系的实体三元组.这可以克服实体识别模块的错误引起的错误传播,重视两个子任务之间存在的关系,使信息抽取任务完成得更加准确高效,但同时也可能会有更复杂的结构,因 此如何用更简单的结构实现实体识别和实体关系抽取的结合将是之后的研究重点.

4医学实体关系抽取

4.1实体关系抽取定义

实体关系抽取是指从一个句子中抽取出关系三元组,主要目的是从文本中识别 实体并抽取实体之间的语义关系.实体关系抽取解决了原始文本中目标实体之间的关系分类问题,它也是构建复杂知识库系统的重要步骤,如文本摘要、自动问答、机器翻译、搜索引擎、知识图谱等.随着近年来信息抽取的兴起,实体关系抽取进 一步得到广泛的关注和深入的研究.

4.2医学实体关系抽取难点及现有技术

与一般的实体关系抽取相比,生物医

-5

资源链接请先登录(扫码可直接登录、免注册)
①本文档内容版权归属内容提供方。如果您对本资料有版权申诉,请及时联系我方进行处理(联系方式详见页脚)。
②由于网络或浏览器兼容性等问题导致下载失败,请加客服微信处理(详见下载弹窗提示),感谢理解。
③本资料由其他用户上传,本站不保证质量、数量等令人满意,若存在资料虚假不完整,请及时联系客服投诉处理。

投稿会员:匿名用户
我的头像

您必须才能评论!

手机扫码、免注册、直接登录

 注意:QQ登录支持手机端浏览器一键登录及扫码登录
微信仅支持手机扫码一键登录

账号密码登录(仅适用于原老用户)