从知识工程到知识图谱全面回顾
文本挖掘和图形数据库 | ©ontotext
知识工程是符号主义人工智能的典型代表,近年来越来越火的知识图谱,就是新一代的知识工程技术。知识工程将如何影响未来人工智能领域的发展,甚至让计算机拥有像人类一样的认知能力?
复旦大学教授、知识工场创始人肖仰华,受邀在腾讯研究院×集智俱乐部AI&Society沙龙上发表以“知识图谱与认知智能”为题的演讲,笔者受肖仰华教授讲座启发,梳理了知识工程与知识图谱的发展历程。讲座视频实录请见文末小程序与网页链接。
智能是什么?半个多世纪以来,无数科学家钻研,各个派别涌现,然而众人的眼光似乎总是聚焦在当下“胜利”的那一方。过去几年,以深度学习为代表的连接主义取得了丰硕的成果,如今提到人工智能,都默认是基于深度学习和机器学习方法,而其它研究方向似乎被众人遗忘。
随着大数据红利消耗殆尽,深度学习模型效果的天花板日益迫近,人们四处寻找新的突破口,“得知识者得天下”的声势渐长。以知识图谱为代表的符号主义被打上追光,这个蕴含大量先验知识的宝库尚未被有效挖掘。
符号主义和连接主义此消彼长几十年,未来是否会继续重复这种对立,亦或者是找到两者有机的结合,走向合作发展的道路?
知识工程是符号主义人工智能的典型代表,近年来越来越火的知识图谱,就是新一代的知识工程技术。知识工程将如何影响未来人工智能领域的发展,甚至让计算机拥有像人类一样的认知能力?本文将从历史出发,系统梳理知识工程近 40 年的发展历程,结合互联网大数据时代的技术和社会背景,展望知识工程和知识图谱的未来前景。
智能化的突破口:知识工程
一般认为,人工智能分为计算智能、感知智能和认知智能三个层次。简要来讲,计算智能即快速计算、记忆和储存能力;感知智能,即视觉、听觉、触觉等感知能力,当下十分热门的语音识别、语音合成、图像识别即是感知智能;认知智能则为理解、解释的能力。
目前的智能研究旨在通过计算机模拟,让机器获得和人类相似的智慧,解决智能时代下的精准分析、智慧搜索、自然人机交互、深层关系推理等实际问题。 | © thoughtworks
落眼当下,以快速计算、存储为目标的计算智能已经基本实现。近几年,在深度学习推动下,以视觉、听觉等识别技术为目标的感知智能也取得不错的胜利果实。然而,相比于前两者,认知能力的实现难度较大。举个例子,小猫可以“识别”主人,它所用到的感知能力,一般动物都具备,而认知智能则是人独有的能力。人工智能的研究目标之一,就是希望机器将具备认知智能,能够像人一样“思考”。
这种像人一样的思考能力具体体现在:机器对数据和语言的理解、推理、解释、归纳、演绎的能力,体现在一切人类所独有的认知能力上。学界业界都希望通过计算机模拟,让机器获得和人类相似的智慧,解决智能时代下的精准分析、智慧搜索、自然人机交互、深层关系推理等实际问题。
知道了认知智能是机器智能化的关键,进一步我们要思考,如何实现认知智能——如何让机器拥有理解和解释的认知能力。
过去几年,由于大数据红利的消失,深度学习面临巨大的瓶颈,需要寻找新的突破口。以深度学习为代表的统计学习方法,严重依赖样本,只能习得数据中的信息。部分研究者已经关注到,另一个非常重要的突破方向在于——知识,特别是符号化的知识。
肖仰华教授认为,知识图谱和以知识图谱为代表的知识工程系列技术是认知智能的核心。知识工程主要包括:知识获取、知识表示和知识应用。我们可以尝试突破的方向在于知识的利用,在于对符号知识和数值模型结合的应用。而这些努力,最终结果就是使机器具备理解和解释的能力。
肖仰华教授正在AI&Society第十五期沙龙上发表知识图谱主题演讲
知识工程前世今生
知识工程起源
-
20世纪50年代—70年代初
知识工程诞生之前的早期人工智能
那么知识图谱到底将如何助力人工智能?回顾历史总能帮助我们更好的理解未来。把时间的车轮回滚到1956年8月,在美国汉诺斯小镇宁静的达特茅斯学院中,几位心理学家、数学家、计算机科学家、信息论学家聚在一起,举办了一次长达2个月的研讨会,认真而热烈地讨论了用机器模拟人类智能的问题。他们为会议的内容起了一个响亮的名字:人工智能(artificial intelligence)。
人工智能学科自此诞生。
传统知识工程代表性人物与成就
达特茅斯会议之后,参会者们相继取得了一批令人瞩目的研究成果。具有代表性的成果为:A.Newell、J.Shaw和H.Simon等人编制出逻辑机LT,它证明了38条数学定理;1960年又定义了GPS的逻辑推理架构,并且提出启发式搜索的思路;1956年, Samuel研制了一个跳棋程序,该程序具有自学习功能,可以从比赛中不断总结经验提高棋艺。还有很多令人激动的成就,这掀起人工智能发展的第一个高潮。
其中,以Newell和 Simon为代表人物的符号主义学派,最先取得丰硕成果,最著名的代表为逻辑机LT。
符号主义最核心的思想是什么呢?符号主义认为人工智能源于数理逻辑,认为智能的本质就是符号的操作和运算。符号主义在后来几大门派的较量中,曾长期一支独秀,为人工智能的发展作出重要贡献。当然,也为后来红火一时的知识工程奠定了基业。
再把时间的焦点挪到20世纪60年代—70年代初,学界还在为人工智能发展初期取得的胜利高兴不已的时候,不切实际的研发目标带来接二连三的项目失败、期望落空。过高的期望总是带来更具破坏性的失望,终于,人工智能迎来第一次寒冷的冬天。
-
1977
知识工程诞生
在人工智能领域经历挫折之后,研究者们不得不冷静下来,重新审视、思考未来的道路。这时候,西蒙的学生,爱德华·费根鲍姆(Edward A. Feigenbaum)站了出来。他分析传统的人工智能忽略了具体的知识,人工智能必须引进知识。
爱德华·费根鲍姆(Edward Feigenbaum,1936-),美国计算机科学家,专家系统之父,知识工程奠基人,曾获得 1994 年图灵奖。他有一句名言流传甚广:“Knowledge is the power in AI”。
在费根鲍姆的带领下,专家系统诞生了。专家系统作为早期人工智能的重要分支,是一种在特定领域内具有专家水平解决问题能力的程序系统。
专家系统一般由两部分组成:知识库与推理引擎。它根据一个或者多个专家提供的知识和经验,通过模拟专家的思维过程,进行主动推理和判断,解决问题。第一个成功的专家系统DENDRAL于1968年问世。1977年,费根鲍姆将其正式命名为知识工程。
把知识融合在机器中,让机器能够利用我们人类知识、专家知识解决问题,这就是知识工程要做的事。
知识工程的兴起与发展
-
20世纪70年代—90年代
知识工程蓬勃发展
1977年知识工程诞生之后,这个领域还在不断往前发展,不断产生新的逻辑语言和方法。这其中有一节点比较重要。
上节已经提到专家系统的是如何形成的,而专家系统究竟发展的如何呢?知识工程又是否能产业落地?美国 DEC 公司的专家配置系统 XCON给出了初步的答案,当客户订购 DEC 公司的 VAX 系列计算机时,专家配置系统 XCON 可以按照需求自动配置零部件。在投入使用的6年间,共处理八万个订单,节省了资金。
至此,人工智能逐步开始了商业应用。
比较著名的专家系统还有cyc,由Douglas Lenat在1984年设立,旨在收集生活中常识知识的本体知识库。Cyc不仅包含知识,还提供很多的推理引擎,共涉及50万条概念和500万条知识。除此之外,还有普林斯顿大学心理学教授维护的WordNet的英语字典。类似的,汉语中的《同义词词林》及其扩展版、知网(HowNet)等词典。不幸的是,随着日本五代机的幻灭,专家系统在经历了十年的黄金期后,终因无法克服人工构建成本太高,知识获取困难等弊端,逐渐没落。
-
1998
万维网与连接数据
万维网的出现,为知识的获取提供了极大的方便。1998年,万维网之父蒂姆·伯纳斯·李再次提出语义网。它的核心是:语义网可以直接向机器提供能用于程序处理的知识。通过将万维网上的文档转化为计算机所能理解的语义,使互联网成为信息交换媒介。但是,语义网是一个比较宏观的设想,需要“自顶向下”的设计,很难落地。
由于自顶向下的设计落地困难,学者们将目光转移到数据本身上来,提出了连接数据的概念。连接数据希望数据不仅仅发布于语义网中,更需要建立起自身数据之间的链接从而形成一张巨大的链接数据网。其中, DBpedia项目是目前已知的第一个大规模开放域链接数据。类似的还有Wikipedia、Yago等都属于这一类结构化知识的知识库。
-
2012-知识图谱
知识工程新发展时期
与维基百科的同时存在的还有个 Freebase。维基百科的受众是人,而 Freebase 则强调机器可读。Freebase 有 4000 万个实体表示,在被收购后,谷歌给它起了个响亮的名字“知识图谱”。
为何传统知识工程困难重重?
在上世纪七八十年代,传统的知识工程的确解决了很多的问题,但是这些问题都有一个很鲜明的特点,它们大部分都是在规则明确、边界清晰、应用封闭的场景取得的成功。一旦涉及到开放的问题就基本不太可能实现,比如数学定理的证明,或是下棋。
传统知识工程为什么会有这么苛刻的条件呢?因为传统知识工程是一种典型的自上而下的做法,是一种严重依赖专家干预的做法。知识工程的基本目标,就是把专家的知识赋予机器,希望机器能够利用专家知识来解决问题。传统的知识工程里,首先需要有领域专家,专家能够把自己的知识表达出来;进一步,还需要有知识工程师把专家表达这个知识变成计算机能够处理的形式。
如此依赖专家去表达知识、获取知识、运用知识,就会存在很多问题,一方面,这个机器背后的知识库规模很有限,另外一方面,它的质量也会存在很多的疑问,这就是为什么我们说传统的知识工程困难重重。
除了上面介绍的一些问题,传统的知识工程面临着的两个主要困难:
-
第一:知识获取困难
隐性知识、过程知识等难以表达。比如如何表达老中医看病用了哪些知识;不同专家可能存在主观性,例如,我国有明确治疗规范的疾病占比非常小,大部分依赖医生的主观性。
-
第二:知识应用困难
很多的应用,尤其是很多开放性的应用很容易超出预先设定的知识边界;还有很多应用需要常识的支撑,而整个人工智能最怕的恰恰就是常识。为什么?因为常识它难以定义、难以表达、难以表征;知识更新困难,太依赖领域专家,还有很多异常或难以处理的情况。
互联网应用催生
大数据时代知识工程
由于上节所述种种原因,知识工程到了上世纪八十年代之后就销声匿迹了。
虽然知识工程解决问题的思路极具前瞻性,但传统知识表示的规模有限,难以适应互联网时代大规模开放应用的需求。为了应对这些问题,学界和业界的知识工程研究者们试图寻找新的解决方案。
首先取得重大突破的,是谷歌。谷歌搜索是谷歌公司的核心产品服务,这类互联网的应用,主要有以下特点:
-
大规模开放性应用,永远不知道用户下一次搜索关键词是什么;
-
精度要求不高;大部分搜索理解与回答只需要实现简单的推理,复杂推理为极少数。
在这样的诉求下,谷歌推出了自己的知识图谱,使用与语义检索,从多种来收集信息,以提高搜索质量。而知识图谱的推出,基本上宣告了知识工程进入了一个新的时代,我们称之为大数据时代的知识工程阶段。谷歌利用一个全新名称表达与传统知识表示其毅然决裂的态度。
Google知识图谱截取
知识图谱引领知识工程复兴
大数据时代下知识图谱的出现,有其必然性,大数据时代给知识图谱技术的发展奠定了丰富的土壤。或许你会问,知识图谱和传统的语义网络有什么本质不同么?大数据时代能给我们带来什么特别的有利条件?前沿进展的回答是——
大数据技术使得大规模获取知识成为可能,而知识图谱即为一种大规模语义网络。这样的一个知识规模上的量变带来了知识效用的质变。
我们有海量的数据、强大计算能力、群智计算以及层出不穷的模型。在这些的外力的支持下,解决了传统知识工程的一个瓶颈性问题——知识获取。我们可以利用算法实现数据驱动的大规模自动化知识获取。
以知识图谱为代表的符号主义声势渐长,这个蕴含大量先验知识的宝箱正被大数据技术开启。 | ©ontotext
和传统知识获取不同,以前是通过专家自上而下的获取知识,而现在是利用数据自下而上,从数据里面去挖掘知识、抽取知识。另外,众包与群智成为大规模知识获取的一条新路径。高质量的UGC内容,为自动挖掘知识提供了高质量数据源。
总的来说,知识工程在知识图谱技术引领下进入了全新阶段,叫做大数据时代知识工程阶段。肖仰华教授提出了一个简单的公式表明传统知识工程与以知识图谱为代表的新一代知识工程的联系与区别:
Small knowledge + Big data=Big knowledge
大数据知识这个词是BigKE,它将会显著提升机器认知智能水平,那么,大数据知识工程对我们人工智能最根本的意义是什么?是提升机器的认知智能水平。我们正在经历感知智能到认知智能的过渡阶段,未来最重要到技术即是实现认知智能。
大数据时代下,知识图谱又有什么独特的魅力?为什么会受到如此广泛的关注呢?
知识图谱使机器语言认知成为可能。机器想要认知语言、理解语言,需要背景知识的支持。而知识图谱富含大量的实体及概念间的关系,可以作为背景知识来支撑机器理解自然语言。
知识图谱使可解释人工智能成为可能。在人工智能发展的任何阶段,我们都需要事物的可解释性,现在的深度学习也常因为缺少可解释性受人诟病。而知识图谱中包含的概念、属性、关系是天然可拿来做解释的。
通过知识图谱等先验的知识去赋能机器学习,来降低机器学习对于样本的依赖,增强机器学习的能力。
知识将显著增强机器学习能力。传统的机器学习都是通过大量的样本习得知识,在大数据红利渐渐消失的情况下,逐渐遇到发展瓶颈。而通过知识图谱等先验的知识去赋能机器学习,来降低机器学习对于样本的依赖,增强机器学习的能力,或许是连接主义和符号主义在新时代下的共生发展。
除了上述的种种优势,知识图谱在一系列实际应用上也非常有用,比如搜索、精准推荐、风险识别、深化行业数据的理解与洞察等,将在各种各样的应用场景发挥作用。
信息技术革命持续进行,数据将会继续向更大规模、更多连接的方向发展,在此背景下,知识图谱将引领知识工程走上复兴的道路,推动在机器身上实现认知智能。
参考资料
[2] 集智俱乐部. 科学的极致:漫谈人工智能[M]. 人民邮电出版社,2015-07
[3]尼克. 人工智能简史[M]. 人民邮电出版社,2017
[4]知识图谱的发展概述
作者:曹羽
编辑:王怡蔺
肖仰华讲座回顾
讲座回顾视频地址:
https://campus.swarma.org/gcou=415
集智俱乐部QQ群|877391004 商务合作及投稿转载|swarma@swarma.org 搜索公众号:集智俱乐部
加入“没有围墙的研究所” 让苹果砸得更猛烈些吧!◆◆◆
原文始发于微信公众号(集智俱乐部):集智