老焦专栏 | 解开知识图谱神秘的面纱
2知识图谱建设的主要过程
目前知识图谱应用的领域比较多,例如智能问答、智能搜索、金融行业的反欺诈/信用审核/信用证审核、电子商务的智能推介、公共安全的数据对碰、大型装备的故障检测与维修、电网的故障检测与应急预案、保险行业的智能核保/智能核赔,总之这是一种让软件更加智能化的手段。但是如何构建一个相对完备的知识图谱应用是一个挑战,难点主要包括:
1)如何建立知识的模型,也就是上述的“概念”如何建立;2)知识的获得比较困难,因为我们面临的可能是海量的知识;3)所获得知识的正确性如何验证;4)如何存储知识,进行快速的推理;5)如何将知识在软件中得到应用,发挥价值等等。
这里面归根结底还是如何用工程化方式建设知识图谱,如何用工程化方式基于知识图谱建设应用的问题,因此后面我们主要探讨如何进行知识图谱建设与应用的工程化方法。
知识图谱可以分为通用知识图谱和领域知识图谱,实际上谷歌或者百度这样的大型互联网公司在构建的是通用知识图谱,它主要是用于搜索引擎,它的用户是全部的互联网的用户,它构建的是常识性知识为主,包括结构化的百科知识,它强调的是一种知识的广度,对知识的深度方面不做更多的要求,它的使用者也是普通的用户。对于领域知识图谱而言,它首先是面向一个特定的领域,它的知识来源是特定行业,基于行业的数据来构建,而且要有一定的行业的深度,它强调的是深度能够解决行业人员的问题,它的使用者也是这个行业内的从业人员。
从上述定义上可以看出,这两者的构建过程和目的会有很大的不同,作为一个企业级软件的从业者,我关注的主要是领域知识图谱,因此这里我要探讨的也是领域知识图谱构建与应用的工程化问题。
由于是工程化问题,我们希望不要讲更多的理论,而是采用类似软件工程的方法,将知识图谱构建与应用的过程讲清楚,在过程的每一个环节上探讨涉及的方法与技术:
1)知识图谱技术架构:确定知识的表示方式和知识的存储方式;2)知识图谱建设方法论:知识图谱建设可以分为知识建模、知识抽取、知识验证这样几个阶段,形成一个知识图谱;3)基于知识图谱建设应用:每一类应用的侧重点不同,使用技术和达到的效果也不同,我们总结为知识推理类、知识呈现类、知识问答类、知识共享类,后面会具体介绍。
3知识图谱技术架构
知识图谱的关键技术架构分为知识表示、知识存储两个部分。常用的知识图谱表示是通过三元组方式,三元组是由实体、属性和关系组成的(由Entity、Attribute、Relation组成)。具体表示方法为,实体1跟实体2之间有某种关系,或者是实体属性、属性词。基于已有的三元组,可以推导出新的关系,知识图谱要有丰富的实体关系,才能真正达到它实用的价值。
如果我们把上面周杰伦的例子描绘如下图,你会发现知识的表示方式和面向对象的概念非常类似,概念就是元模型/类,实体就是对象,关系就是对象间的关系。实际上,在很多著作中也把面向对象作为一种知识表示方法。
利用我们熟悉的面向对象方式进行知识的表述,结合其他一些知识图谱的技术,是一个比较容易入手的方式。既然知识的表示以概念、实体、关系、属性为基础元素,就可以利用图数据库存储,目前有很多图数据库可以做选择,例如Neo4J、JanusGraph等,也可以在传统关系数据库上进行存储,这里我就不深入探讨了,因为确定了表示方式,如何存储不是一个大问题。 这一篇我们介绍了知识图谱的基本概念和用途,下一篇主要介绍知识图谱建设的方法论,第三篇将用实际的案例,介绍一个基于知识图谱的知识推理类应用。
- The End -
关于作者:焦烈焱,普元信息CTO,致力于技术创新和金融创新解决方案研究。专注于企业技术架构领域,对分布式环境的企业计算、 企业信息架构的规划与实践有着丰厚经验,带领普元技术团队相继在云计算、大数据及移动开发领域取得多项突破,并主持中国工商银行、中国建设银行等多家大型企业技术平台的规划与研发。
最新活动更多
-
11月28日立即报名>>> 2024工程师系列—工业电子技术在线会议
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
即日-12.26火热报名中>> OFweek2024中国智造CIO在线峰会
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
-
精彩回顾立即查看>> 2024 智能家居出海论坛
-
精彩回顾立即查看>> 【在线会议】多物理场仿真助跑新能源汽车
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论