导语
在智力测试中,与视觉相关的题目很常见。然而通过训练一个智能agent来解答这类问题,依然困难重。一篇发表于《美国国家科学院院刊》(PNAS)的最新论文,在统一的框架下,对如何使用AI解决视觉类谜题给出了五条策略,并讨论了人工智能与认知科学的相互启发。



1. 智力测验必考的图形推理问题

 

看图找不同,看图找相似,看图找规律补全……这类问题被称为图形推理问题。因为图形推理问题需要测试者从情境中提取并理解信息,所以它既是一种人类智力测验的问题,也是小学考试题的常客。


图1:经典的图形推理测试——Raven


如图所示的问题叫做 Raven 测试,是很经典的一种智力测验题目。甚至不用任何文字说明,就大概就能猜出来接下来要干什么——根据已知图片找寻规律,进而从多个选项中,挑出空缺的图片。


即使是对第一次接触这类题目的人而言,这类测试也很简单。


这是因为人类能够对视觉符号进行抽象,并将提取的特征储存在工作记忆中。然而这样的问题,对已有的智能体(agent)来说,由于其目前仍依赖于模式识别进行推理,进而无法在第一次接触这类题目时就给出解答。



2. 为什么需要AI尝试解决 Raven 测试?

 

对 Raven 等图形推理问题的研究早已有之,但往往依赖于设计良好的程序和背景知识。


最早期的工作,用逻辑式编程语言(如 Lisp),将该图像推理问题经由手工编写的程序,转换成命题表示(如属性值对列表),然后再解决对应的逻辑问题。该过程用不到机器学习。其中的代表是上世纪60年代的 ANALOGY。跟人相比差距较大,人类在不经受任何事先训练的前提下,就可以轻松回答 Raven 问题。


第二代针对 Raven 测试问题的程序,仍然是基于知识的,包括旋转、图像合成、视觉相似性等。程序可以直接访问和操纵题干图像,甚至在推理过程中经常产生新的图像。


而第三代解决 Raven 测试问题的程序,则是通过对大量实例问题的输入输出对进行训练,以学到视觉空间域知识的综合表示与问题作为解决策略。


类似 Raven 这样的难题之所以重要,是因为其作为智力测试,考察了人类认知中最基础的能力——从复杂情境中提取和理解信息。


目前 Raven 测试的难度范围跨越很大,针对孩子或成人的都有。如果智能体能够在这类问题解决上取得突破,那么其方法就有可能应用到更广泛的问题解答中。



3. 怎样用智能主体解决图形推理问题?

一个框架与五种策略

 

研究者在论文中给出了一个通用框架,从输入问题到形成解决方案。


图2:解决视觉谜题的智能体所需的算法框架


在该算法框架中,首先是定义问题,即将问题中的视觉元素抹去。其次通过问题模板,将原始问题变为逻辑问题。这一步类似于将国际象棋的棋盘图像,变转化成抽象的棋局形势。而图中的领域知识,则是基于诸如对称性、顺序几何图案、行和列等,为解决给定类型问题所需的知识或概念。而在备选答案中进行选择的模块,则是根据多种指标,从多个可能的答案中挑出最优的那一个。


在上述框架中,最重要的是位于中间的部分,即根据领域知识和抽象后的问题,找出解决策略的步骤。这也是接下来的五种策略所要讨论的。


图3:解决 Raven 问题的五种策略


策略一,构建搜索(图3-A)。利用图中完全已知的第一行中的元素,寻找能够解释图中规律的转变方式。之后再寻找所有的回答中,哪一个适用于这样的规律,由此解决问题。


策略二,反应排除(图3-B)。和第一种策略类似,先是根据第一行的元素寻找规律,之后逐个将可能的回答带入,寻找规律,通过判定第一行和第二行的规律是否相似,排除错误答案,得出正确回答。构建搜索与反应排除这两种解法,都是基于局部特征与分析的进行的。


图5:全局搜索策略示意,通过编码器生成Raven测试的答案


策略三:全局搜索(图3-C)。如果将视觉谜题当成一块缺失的图片,利用对抗神经网络,使用不完全的图片训练编码器对图像进行压缩,之后再通过解码器解压图像。据此可以从不完全的图像中,弥补缺失的部分。最后对比所有选项中,哪一个图像最类似解码器的生成图像来导出答案。


策略四:格式塔排除(图3-D)。基于已定义的格式塔评估矩阵(如图像之间是否具有恒常性、组织性、对称性与连贯性),将每一种可能的解一一带入,根据哪一种解的得分最高,确定哪种解正确。


第五种策略,则是将一个 Raven 问题转换为多个,之后逐个解决。其次再将每个问题子问题的解拼装起来,求得原始 Raven 问题的答案。


以上的五种策略,可以看成智能体学习到如何将视觉元素在空间内形成规律这个问题上的领域知识(domain knowledge)。前两种是学习如何在每个元素间进行转换,其后两种是如何学到全局的格式塔规则。


图6:格式塔规则示例


格式塔规则指的是示例左边的圆形和长方形都是不完全的,但人类能够很自然地认出这是圆形或长方形,如图6所示。而图右侧的钥匙图像,即便因覆盖而实际上分为两节,但人类仍会认为图像是两个完整的钥匙。


至于第五种解决问题的策略,则是问题拆分后多种问题的组合,属于多主体建模。在该文作者提出的框架中,还包括抽象问题定义,以及从多种解法中选择最合适的模块。这些都是利用复杂系统的视角,来解决AI领域的问题。



4. 认知科学与AI智力检测

 

该文论述了为何 Raven 问题对人工智能的发展很重要,提出了一个解决该类问题对的框架,同时对如何解决这样的问题,以及这类问题可以以何种方式依赖于从数据领域知识与问题定义来自动解决,而不必人工编写解答程序等方面提出了畅想。


认知科学关心当人看到图像时,头脑中会进行哪些计算。目前的AI研究无法直接回答,因此作者把这一问题转化为——如果智能主体,能够基于视觉图像进行知识表示和推理操作,那么有哪些潜在的问题解决方式?这是对“何为智能”的追问。


针对人类儿童的研究表明,儿童通过两类策略来学习解决范围不断扩大的问题:第一类是“策略发现” ,即针对特定问题或任务发现新策略;第二类是“策略概括” ,即针对其他问题或任务调整已知的策略。而本文提出 AI 解决 Raven 问题的若干种策略,也可以概括为上述的人类学习策略的组合。


人工智能的发展,需要对何为智能这一问题有更深刻的认识,并且与认知科学结合。


作者:郭瑞东
审校:赵雨亭、刘培源
编辑:邓一雪

复杂科学最新论文


集智斑图顶刊论文速递栏目上线以来,持续收录来自Nature、Science等顶刊的最新论文,追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能,每周通过微信服务号「集智斑图」推送论文信息。扫描下方二维码即可一键订阅:



推荐阅读


生命复杂性系列读书会
Nature 机器智能综述:AI如何自动生成游戏
集体智能如何增强人工智能?未来智能社会一瞥
人工生命全景图:如何创造出超越人工智能的生命系统
神经科学走出实验室:连接人工智能与现实生活认知
加入集智,一起复杂!





集智俱乐部QQ群|877391004

商务合作及投稿转载|swarma@swarma.org

◆ ◆ 

搜索公众号:集智俱乐部


加入“没有围墙的研究所”

让苹果砸得更猛烈些吧!



👇点击“阅读原文”,追踪复杂科学顶刊论文