知识图谱基本概念以及技术

核心提示作者 | 郑毅封图| CSDN│下载于视觉中国出品 | CSDN云计算随着AI技术的发展和普及,当今社会已经进入了智能化时代。与以往不同的是,在这一波浪潮中,企业不仅是向数字化转型,更是向知识化转型。那么,如何助力企业破解智能化知识挖掘和管

作者|郑毅

印章| CSDN│视觉中国下载

出品| CSDN云计算

随着AI技术的发展和普及,当今社会已经进入智能时代。与以往不同的是,在这一波浪潮中,企业不仅在向数字化转型,也在向知识化转型。那么,如何帮助企业解决智能知识挖掘和管理问题,实现知识转化呢?

在3月13日14:00起举办的华为开发者大会2020第三届华为DevRun Live开发者沙龙上,华为云自然语言处理技术专家郑毅将分享“企业知识计算平台技术解读与案例实践”,向大家展示华为云知识计算平台及相关技术、知识图谱构建流程与方法、知识计算行业案例。下面主要讲“知识图谱构建的过程和方法”。让我们先睹为快。

什么是知识地图?

知识地图是由实体、关系和属性组成的数据结构。如下图,“刘德华”是一个人物类型实体,“刘德华”有自己的身高、国籍等信息,称为实体的属性。同样,《无间道》是电影类型实体。我们知道刘德华是《无间道》的主演,所以刘德华和《无间道》有主演关系。通过实体、关系和属性,我们可以有效地组织我们能够理解的知识。知识地图的构建和应用涉及数据库、自然语言处理和语义网络等技术。

图1知识地图示例

通用知识图谱还是行业知识图谱?

根据知识地图的用途,知识地图可以分为通用知识地图和行业知识地图。通用知识地图侧重于构建通用知识,用于搜索引擎和推荐系统。行业知识图谱主要针对企业业务。通过构建不同行业和企业的知识图谱,可以为企业提供基于知识的服务。华为云知识地图服务可用于上述两类知识地图的构建、管理和服务,更侧重于面向企业的知识地图。

如何构建知识图谱?

知识地图构建主要分为自上而下和自下而上两种构建方式。自顶向下的构建需要先定义本体,然后根据输入数据完成从信息提取到地图构建的过程。这种方法更适合领域专业用户使用的专业知识图谱的构建,比如企业知识图谱。自底向上的构建是从开放的链接数据中抽取置信度较高的知识,或者从非结构化文本中抽取知识,完成知识图谱的构建。这种方法更适合普通知识,比如人名、机构名等普通知识图谱的构建。本文重点研究了自顶向下构建的相关流程和技术,并将其用于构建企业知识地图。

目前行业内还没有知识图谱云服务,也没有统一标准的自上而下的构建流程。目前业内主流的知识地图构建方式是基于企业内部数据和公共数据,由地图服务商以解决方案的形式帮助客户定制知识地图构建。这种方法无疑是非常昂贵和低效的,并且通常需要很长的时间来完成。同时,企业没有参与感,地图建设可能会出现较大偏差,难以在实际业务中使用。

我们从用户的角度出发,通过抽象的知识图谱构建流程和相关技术,推出华为云知识图谱云服务,为不同行业和企业提供快速构建知识图谱的平台,使大中小企业都能构建自己的知识图谱。

图2华为云知识图谱云服务

华为云知识图谱云服务提供管道图谱构建能力,将图谱构建抽象为以下基本流程:本体构建、数据源配置、信息提取、知识图谱和知识融合。

图3知识地图构建的基本流程

进一步,将各个流程模块抽象成插件形式,通过组合配置生成地图构建任务。面对不同的行业和领域,只需要修改插件配置,就可以完成企业知识图谱的构建。同时,基于流水线设计,知识图谱云服务可以在只修改数据源的前提下完成知识图谱更新操作,非常适合需要频繁更新的知识图谱。

2.1如何构建知识图谱的本体?

知识地图构建的第一步需要完成地图本体的设计和构建。它是本体图谱的模型,是对组成图谱的数据的模式约束。对于企业知识地图的构建,一般由行业专家和垂直领域的知识地图专家合作完成。

本体的构建和设计对于知识地图的构建至关重要。通过梳理领域知识、术语词典、专家人工经验等。作为本体构建的基础,可以结合知识图谱的应用场景完善图谱构建,最终得到实体类别的定义、类别之间的关系,以及实体所包含的属性。华为云知识图谱云服务提供图形化的本体设计工具,通过拖拽、编辑等方式灵活完成企业知识图谱本体的构建。

图4华为云知识图谱云服务-本体设计界面

2.2如何配置数据源?需要做哪些准备?

在配置数据源之前,需要对不同类型和格式的数据进行整理。比如本地的非电子文档,需要先进行电子扫描,结合OCR等技术,将扫描的文档转换成文本文档。比如对于本地的电子文档,需要将本地的文档按照文档类型和格式进行归档和解析,转化为标准化的格式,或者对于网络资源,需要根据网站的特点开发相应的爬虫,将数据抓取并存储在本地数据库中,等等。还有一些第三方资源需要获取相应的数据访问接口,通过接口获取相应的数据。

排序后的数据上传到华为云OBS对象存储服务后,知识图谱云服务可以配置数据源,包括指定格式的结构化数据和非结构化文本的配置。

2.3什么是信息抽取?如何提取?

信息抽取的目的是根据不同的数据源和数据格式,抽取实体、属性和关系的知识。这是知识地图构建过程中的关键环节,信息提取的质量决定了知识地图的质量。实体之间的关系和实体的属性值可以用三元组来表示,所以信息抽取可以简称为三元组抽取。华为云知识图谱云服务支持结构化键值格式和非结构化文本的三重提取。对于结构化数据,可以通过配置预置功能的组合来完成对字段的处理。相应的,对于非结构化文本,云服务提供算法模型提取能力,支持业界前沿的基于机器阅读理解的三元组提取方法。利用多轮对话的思想,抽取三元组,首先抽取主语,然后根据抽取结果和候选谓词对应的模板构造问句来抽取宾语,最后形成三元组。这种框架模式的效果可以达到目前行业最好的水平。华为云知识图谱服务支持基于该算法的模型训练、预测和管理功能,以插件的形式完成管道中的信息抽取。

图5基于机器阅读理解的三元抽取方法

信息抽取中模型训练的推理功能基于华为云一站式AI开发管理平台ModelArts,提供高效的AI计算、模型训练、推理和部署能力。同时,为了方便三重抽取模型的训练,还额外提供了一个三重标注工具,用户可以基于该工具快速获取训练数据,完成信息抽取和知识图谱构建。

图6三重标签工具示例

2.4知识整合是如何完成的?

所谓知识融合,就是从多个数据源中提取知识后,对大量三元组数据进行对齐和合并。比如:百科有个明星刘德华,互动百科有个明星刘德华。难道不能用两个明星刘德华来构建知识图谱吗?这时候我们就需要把它们识别出来放在一起,然后融合成一个实体,这就是实体的对齐和知识的融合。关键问题是如何高效地完成实体对齐。技术路线基本可以分为两类:基于实体属性相似度的框架和基于联合表示的深度学习框架。考虑到基于联合表示的深度学习框架依赖于大量的标注数据,且模型与行业和数据强相关,无法提供良好的泛化能力。因此,华为云知识地图服务目前支持基于实体属性相似度的框架,通过定义相似度度量和组合,可以完成实体对齐和知识融合。

此外,华为云知识地图云服务还提供地图可视化服务,可以直观地观察和分析实体和关系。

图7病毒蛋白质知识图谱可视化示例

知识图谱如何存储?

经过知识图谱的构建,我们现在拥有了大量的三重知识。那么如何存储这三重知识呢?

最直接的方法是使用表格存储,如关系数据表,其中三元组以三列或更多列数据的形式存储。这种方法在地图比例尺比较小的时候是可行的,但是如果地图比例尺变大了,还可行吗?举个例子,假设我们有一个娱乐明星和电影的娱乐地图,里面包含了大量的明星、电影以及他们之间的关系。如果你想打听“刘德华和梁朝伟演的电影里年龄最大的导演是谁?”,需要对关系数据库中的知识图谱结果表做2-3次自连接操作。如果三元组的数量是几千万,几十亿,几十亿,显然这样的查询效率极低,基本不可行。

华为云知识图谱服务采用业界主流的图数据库存储知识图谱,直接以图的形式存储数据或知识图谱,可以高效查询多跳关系和属性。具体来说,我们使用的是华为云图像引擎服务,包括图存储和图计算的架构设计,不仅可以提供高效的查询性能,还可以提供多种预置的图深度学习算法。用起来很方便。欢迎试用。

图8华为云地图引擎服务产品优势

华为云知识计算案例介绍

中国石油基于华为云知识计算服务的知识建模、油气地图构建、地图存储、自然语言处理和机器学习能力,构建了行业首个油气知识计算平台。以油气勘探开发数据为基础,通过知识计算技术的应用,为油气勘探开发增储、增产、降本、增效提供智能辅助和决策。

图9油气知识计算的价值和意义

华为的知识计算解决方案提供丰富的知识应用,从解决企业痛点、提高企业效率、提供基于知识的服务的角度全面赋能企业。体现了知识计算在各行业的智能价值,使各行业企业能够快速、低成本、高效率地进行管理。通过应用企业知识,实现知识型转型,释放知识型服务带来的红利,可以全面提升企业在智能时代的竞争力。

Run Live是华为开发者大会2020下的线上开发者沙龙活动。它以直播的形式分享前沿技术和应用实践。开发者可以了解技术趋势,了解最新的实际应用,获得最新的开发工具。

 
友情链接
鄂ICP备19019357号-22