面向大数据领域的事理认知图谱构建与推断分析.pdf

pdf,计算机与AI
文档页数:15
文档大小:7.52MB
文档格式:pdf
文档分类:计算机与AI
上传会员:
上传日期:
最后更新:

面向大数据领域的事理认知图谱构建与推断分析

王军平1",张文生1,王勇飞2,孙正雅1

1.复杂系统管理与控制国家重点实验室(中国科学院自动化研究所),北京100190 2.国电大渡河流域水电开发有限公司,成都610000*通信作者 E-mail: jumping.wangis.

收稿日期:2019-12-04;修回日期:;按受日期:2020-0428;网络出版日期:2020-0713

科技创新2030*新一代人工智能”重大项日(批准号:2018AAA0102100)和国家白然科学基金(批准号:6177252561876183 U1636220) 资助项目

摘要随着大数据对全球生产、流通、分配、消费等国计民生领域产生重要影响,事理作为认知智能重要概念,不仅帮助人们发现大数据所蕴含的国计民生的线索与发展规律,而且帮助人们更好认知人机物三元世界未来发展趋势,考虑到人机物事理动态演化是工业大数据有别于其他行业大数据处理的本质区别,本文从人机物事理动态演化特性智能认知着手,结合传统知识图谱在互联网领域取得的成功经验,提出了面向大数据领域的事理认知图谱构建与推断分析.首先论述了事理认知图谱对推动 认知智能研究发展的贡献,剖析了它与知识图谱异同之处,深度理解人类社会发展变化规律的重要价值.其次阐述了事理抽取与泛化、多模态联合网络化合成表示、进化认知和推断分析等关键技术研究最新进展以及面临的挑战,最后,结合我们课题组在事理认知图谱的研究进展情况,归纳总结了事理认知图谱在预防网络电话诈骗和安全生产管控等领域最新应用效果.本文结尾总结和展望事理认知图 谱的未来研究方向和发展前景.

关键词工业大数据,知识图诺,事理认知,人机行为演化分析

1引言

随着信息技术与实体经济的深度融合引发的数据迅猛增长,关国白宫率先发布了《美国白宫大数据白皮书》,随后欧洲各国启动大数据研究计划,我国也颁布了《促进大数据发展行动纲要》等战略举措,推动大数据分析技术在生产、流通、分配、消费活动以及经济运行等重要环节的应用.例如:美 国GE通用公司通过工业互联网技术实现对全球飞机发动机、发电装备的在线远程检测,开启了全球制造业数字化升级转型,截至2018年,发达国家的GDP数字经济占比已经达到了34.8%.预示着

掌握人类社会活动的基本规律数据(包括个体兴趣偏好、群体消费趋势、关系和行为分析等),谁就可 向,归根结底大数据蕴含着推进产业供给侧改革、发展数字经济的重要决策线索,也就意味着谁率先以在市场营销、商业计划、社会规划、经济建设中做到科学施策,合理优化产业资源,重塑产业价值链,培育数字经济发展模式②

大数据技术与实体经济深度,催生了企业数字化升级转型,积累了规模巨大、来源分散、模态多样胜任海量数据组织管理任务.Google的知识图谱(knowledge graph)通过三元组对概念实体、属性和 性的人机物运行机理数据资源.这类大数据特性使得现有机器学习、数据挖掘和数据仓库等技术难以关系等核心要素进行形式化地描述,以最小的代价将大规模网络信息有效组织起来,开辟了互联网领Wikidata YAGO)中广泛应用,满足了人们快速获取所需信息和全面掌握潜在价值的迫切需求.缺乏深度韵析人机物运行机理数据蕴含决策价值的能力,主要聚焦在:(1)知识图谱仅聚焦实体概念及关 系组织管理,缺少润察产业运行机理演化规律、资源合理配置和风险传播路径机制:(2)现有产业大数据以多源、多学科和多类型非结构化的形式存在、蕴藏人机物运行机理演化知识,使得知识图谱难以在有限时间内提取准确有效的决策知识,清晰地展示产业未来发展方向.

针对知识图谱面临困境,先后诞生了谷歌大脑、IBMWatson、微软Azure、阿里大脑、百度大脑能力,掀起了全球学术界和产业界研究高潮.Liu国提出事理(eventlogic)概念,并采用有向图模型形 等,开启一种全新的海量数据智能计算模式,以其卓越处理结构化与非结构化数据和智能化人机交互式化表征人机物行为演化机理,推进事理概念与金融产业深度融合.伴随AlphaGo在围棋领域战胜人类,工业机器人、情感陪护机器人等问世,充分证明事理认知是人工智能从弱智能走向强智能的必有之路,本文总结了国内外已取得与事理认知密切相关的研究成果,从事理认知计算角度,提出了事 理认知图谱,全面阐述了跟事理逻辑表示、认知学习、推断分析等密切相关技术的最新进展.结合我们团队在事理认知技术及应用的研究进展,梳理事理图谱在安全生成管控、预防诈骗等领域应用的推广途径.最后对事理认知图谱未来发展的挑战和趋势进行总结与展望.

2事理认知图谱

2.1基本概念

谷歌大脑、IBM Watson、微软Azure、DeepMind AlphaGo、阿里大脑、百度大脑等问世,表明事帮助企业掌握人机物要素行为机理演化规律,润察行业发展趋势,应对内外部风险挑战,深受社会各行各业的青,本文结合现有研究成果进行比较和提炼,从人工智能的认知计算角度,提出了事理认知图谱,采用五元组(事件、状态、行为、时间、关联影响)概率图模型,形式化描述现实世界中人机物 几何结构、状态和行为等事理(如图1)同.对事理逻辑进行推理、分析、对比、归纳、总结和论证等加工处理,就像人类大脑一样通过视、听、触、理解等多种感知通道把外界信息转换为内部判断机理模型一样,使得事理认知图谱具备高动态、高维度、多模式分布式大场景人机物事理演化的感知、智能描述和跨媒体推理分析等能力.

解现实世界人机物的行为演化机理为研究对象,重点刻画事件之间的顺承关系、因果关系、条件关系 事理认知图谱与知识图谱相比,它是人工智能20时代薪新研究领域,从认知智能角度出发,以理和上下位等事理逻辑,真实刻画企业价值链的运行规律和模式,具体区别如下:

图1(网络版彩图)事理认知图谱概念、核心技术及应用生态

Figure 1 (Color online) The event cognitive vault concepts key techniques and applications

(1)事理认知图谱从现实世界人机物活动状态、行为、事件、场景等多模态数据中自动抽取事理逻辑知识,以刻画事理演化规律为研究对象,而知识图谱以从大规模结构化数据抽取实体概念及关系为研究对象,以图形式化方式分类整理成结构化知识,方便人们检索各种类型知识

(2)事理认知图谱的边表示事理逻辑规则,即顺承关系、因果关系、条件关系和上下位等,边上标注概率信息、逻辑规则概率分布,而知识图谱的边表示实体间确实存在链接关系,也就是说某一条属性或关系要么成立,要么不成立.

2.2基本组成结构

事理认知图谱基本结构(如图2),按照从底向上思路,划分为异构数据层、事理表示层、推理计算层和智能服务层等4部分,具体如下:

(1)异构数据层,主要汇聚了现实世界人机物活动过程中产生的状态、行为、事件、场景等多模态海量异构数据,这类数据以结构化、半结构化和非结构化等形态存在,完整提供了现实世界中数以亿计人机物的所言所行多模态数据

(2)事理表示层,采用网络表示方法实现对数以亿计人机物的所言所行多模态异构数据跨媒体统一表征,提取数以亿计人机物事理、特征及逻辑关系,在信息空间构建数以亿计人机物实体、状态和行为等演化语义网络,能够支持对数以亿计人机物事理节点删减、新增等动态变化,对节点间时空关联关系动态变化等进行动态存储、组织和管理.

(3)推理计算层,采用利用统计分析和图神经网络的逻辑推理技术,不断优化事理表示层时空演化网络的结构和参数,按照用户意图从上下文情景中获取不同事理主题之间各种各样复杂逻辑网络结构,并采用跨模态信息完整性分析技术,解决事理图谱补全和事理图谱去噪等问题,进而使事理图谱

图2(网络版彩图)事理认知图谱分层结构

Figure 2 (Color online) The hierarchical structure of event cognitive vault

更加丰富和完善,形成实时计算大脑系统

(4)智能服务层,主要面向行业提供智能问答、智能搜索、奥情分析、用户画像、智能设计、智能诊断、智能生产、反欺诈等智能服务工具,让机器具备人类认知事件发展规律能力,从杂乱无章多模态 数据中,获取人类认知世界的常识,掌握人类发展规律,同时让人类借助事理演化图谱更好地从客观世界中去挖据、获取和沉淀知识,这些知识和人工智能系统形成正循环,做到人类与机器自然交互途径,构建共融共生的混合增强智能生态.

3事理认知图谱自动构建技术

事理认知图谱自动构建技术,以多模态数据(包括文本、音视频、图片、文字、消息等)为源头,按照事理认知图谱的4层基本结构体系,重点归纳总结事理抽取、多模态逻辑关系融合表示、事理进化的自动抽取与泛化,生成各种事理及逻辑规则,并消除不同情境的逻辑概念的歧义,剔除余和误差 认知推理等自动构建关键技术研究进展,详细阐述如何对现实世界蕴含的事理、属性特征和逻辑关系等,形成有向图形式的事理知识库

3.1事理及规则自动抽取

性等特性的数据层,自动抽取各种类型的事理概念、属性和逻辑关系(顺承、转折、因果、递进、关联、 事理及逻辑关系自动抽取是构建事理认知图谱最重要的步骤,从多模态、高维度、高噪声、多样解释等),并对它们进行抽象与泛化.这部分研究工作重点聚焦在主题事件及属性自动抽取和逻辑关系

自动抽取等主题上.

主题事件及属性自动抽取.最初,Liu等同采用启发式算法与人工编写规则相结合的方法从文本、语音和视频中自动抽取文本关键词实体,然而,基于规则的方法具有明显的局限性,不仅需要耗费 大量人力,而且可扩展性较差,难以适应上下文数据的变化.随后,人们开始尝试采用统计机器学习方法辅助自然语言处理方法,解决命名实体抽取问题,Liu等利用K-最近邻算法和条件随机场模型,实现了对Twitter文本、语音和视频数据中包含实体的识别然而迄今为止,单纯基于有监督学习的类方法的发展形成了制约.随着深度学习技术的发展,Rawat等提出了一种条件Wasserstein生成 实体抽取方法,在准确率和召回率上的表现都不够理想,且算法的性能依赖于训练样本的规模,对此式对抗网络模型(conditional Wasserstein generative adversarial networks CWGAN),该模型借鉴条件生成式对抗网络以文本描述为条件的图像概率分布的思想,完成命名实体识别以句子序列为条件获得标注序列概率分布的任务.该模型的生成器和判别器都采用双向LSTM结构,不同的是生成器生成命名实体标签的概率分布,判别器则为生成器的生成质量打分并给生成器,生成器根据更新梯 度从面提升生成标签概率的质量.另外,CWGAN采用梯度惩罚的方法来保证梯度在后向传播的过程中保持平稳.实验表明CWGAN方法在命名实体识别的事理抽取的准确率和召回率上最优.构建跨越自然语言理解与计算视角相融合的智能描述与生产方法体系,实现从图像、文本、视频和语音等多模态数据从单一抽取向多模态并行自动抽取的转变.

逻辑关系自动抽取就是从数以亿计人机物事理节点全概率分布环境中可视化探索出事理之间的取上,Zhou等9提出采用多实例多标签(multi-instance multi-label)方法对关系抽取进行建模,刻画 逻辑关系,例如,顺承、转折、因果、递进、关联、解释等、当前研究成果主要集中在事件因果关系抽一个实体对可能存在多种关系的情况.Socher等[提出使用递归神经网络解决关系抽取间题.该方法首先对句子进行句法解析,然后为句法树上的每个节点学习向量表示.通过递归神经网络,可以从句法树最低端的词向量开始,按照句子的句法结构选代合并,最终得到该句子的向量表示,并用于关 系分类.该方法能够有效地考虑句子的句法结构信息,但同时该方法无法很好地考虑两个实体在句子中的位置和语义信息.Zeng等[]提出用卷积神经网络(convolutional neuralnetwork CNN)进行关系抽取,采用词汇向量和词的位置向量作为卷积神经网络的输入,通过卷积层、池化层和非线性层得到句子表示.实体的位置向量和其他相关的词汇特征使得句子中的实体信息能够被较好地考虑到关系抽取中.

的关系,虽然该模型能利用上下文信息,但是上下文的范围受梯度消散问题的影响,难以取得预期效 但是由于CNN不适合学习长距离的语义信息,Zhang等12使用双向循环神经网络抽取文本中果.为此,Miwa等[13提出了一种基于端到端神经网络的关系抽取模型.该模型使用双向长短时记忆模型(long-short term memory LSTM)和树形LSTM同时对实体和句子进行建模,在数据集 SemEval-2010Task8上取得了最好的效果,与之前的模型相比,该方法效果取得较大幅度提升.同时,考虑到上 下文信息以及训练速度.但多数现有的因果关系抽取方法都需要人工定义模式和约束,且严重依赖知识库.Feng等14|利用生成式对抗网络(generative adversarial network GAN)的对抗学习特性,将带注意力机制的双向门控循环单元神经网络(bidirectional gated recurrent units network,BGRU)与对抗学习相融合,通过重定义生成模型和判别模型,基本的因果关系抽取网络能够与判别网络形成对抗,进而从因果关系解释信息中获得高区分度的特征.事实上,事理逻辑关系蕴藏于不同模态和类型的信 息源中.我们需要探索如何利用多语言文本、图像和音频信息进行关系抽取.事理顺承关系抽取受语料标注的限制,研究进展相当缓慢

资源链接请先登录(扫码可直接登录、免注册)
①本文档内容版权归属内容提供方。如果您对本资料有版权申诉,请及时联系我方进行处理(联系方式详见页脚)。
②由于网络或浏览器兼容性等问题导致下载失败,请加客服微信处理(详见下载弹窗提示),感谢理解。
③本资料由其他用户上传,本站不保证质量、数量等令人满意,若存在资料虚假不完整,请及时联系客服投诉处理。

投稿会员:匿名用户
我的头像

您必须才能评论!

手机扫码、免注册、直接登录

 注意:QQ登录支持手机端浏览器一键登录及扫码登录
微信仅支持手机扫码一键登录

账号密码登录(仅适用于原老用户)