从AI高考透视人工智能进展

导语
最近,人工智能再一次刷屏了!
学霸君的人工智能程序Aidam以134分的成绩拿下了2017年的数学高考,而且更令人吃惊的是,Aidam仅仅用不到10分钟就完成了所有的考题。这是继AlphaGo挑战柯洁之后人工智能再一次成功吸引了大众的眼球,所有这些触动我们神经的事件都在一次次地向我们表明,人工智能的确已经取得了突飞猛进的发展。
接下来,就让我透过这些热点事件,说说AI下棋与AI高考背后的人工智能技术。


首先,让我们来看看Aidam是如何工作的。整个Aidam的工作可以分成如下三个流程:

首先,在读题阶段,Aidam需要读取试卷上的题目。而试卷上所有题目的表述都是运用我们人类的自然语言,但是这对于机器来说却是一个很大的挑战,他需要能够将自然语言转述成计算机能够理解的符号语言。事实上,这是整个解题过程最大的挑战。Aidam之所以还是有16分的失分,就是因为它没有读懂题意。
其次,在读题完成之后,所有的数学题就全部变成了机器可以理解的形式符号语言了。接下来,机器就开始进行它非常擅长的自动推理阶段。其实,自动推理、自动定理证明虽然在我们普通人看来是一件非常困难的事情,但是对于机器来说却是相对容易的。我们知道,早在1956年人工智能诞生的时候,机器已经可以进行数学定理的自动证明了。当时,Newell和Simon等人编制的程序“逻辑理论家”可以自动证明罗素的数学经典著作《数学原理》第二章中的38条定理;而到了1958年,美籍逻辑学家王浩在IBM 704计算机上以3-5分钟的时间证明了《数学原理》中的370条定理。可以说,自动定理证明是人工智能发展最早的一个领域。那么,相比较《数学原理》中的艰涩定理,高考数学题自然也是不在话下的。






走棋网络可以将任意棋局映射为每一个允许落子格点的落子概率;而价值网络则将棋局映射为一个局势评估数值,它们都是通过大量的训练而得到的。
在真正比赛的时候,AlphaGo则主要采取所谓的蒙特卡洛搜索技术来完成大量棋局的模拟与规划,并结合走棋网络和估值网络的最终训练结果,完成最终的落子。

棋局的搜索就属于第一代人工智能技术,它的本质就是在一个非常的棋局空间之中进行大量的下棋模拟,从而找到一种能够赢棋的走法。蒙特卡洛搜索则是对经典搜索技术的扩展,使得搜索技术可以更好地融合第二代人工智能机器学习框架。
最终的结果大家是有目共睹的。如果单纯地依靠机器学习、神经网络,则AlphaGo虽然可以有很好的表现,但仍然无法完成复杂局面的绞杀;如果单纯地依靠搜索技术,则AlphaGo就会失去所谓的大局观,从而导致在局势尚不明朗的时候不知道如何落子。
所以,AlphaGo就是一个典型的AI融合工程。

所谓的图灵机是一种古老而经典的模型,它是我们计算机的理论雏形,它的样子如下图所示:


这种神经图灵机的功能非常强大,它不仅可以像经典的LSTM神经网络一样完成各式各样的序列生成、翻译等任务,还可以进行复杂问题的规划,甚至自己编程序。
例如,下图就展示了用神经图灵机如何完成在伦敦地铁地图上进行路径规划任务。


神经网络优化神经网络
神经网络虽然很强大,但是它往往具有一堆不好调的超参数,比如一共有多少层,每层有多少个神经元等等。那么,能否用人工智能的方式自动搜索这些参数呢?我们知道,搜索是经典人工智能的一种非常重要的任务,它可以在一个很大的参数空间中找到我们想要的参数。Google的工程师们探索了一种途径可以利用强化学习算法来实现对神经网络超参数空间的搜索。

如图所示结构,其基本构思是用强化学习的方法训练一个控制器网络,它是一个RNN,可以用于生成子网络的超参数(例如卷积神经网络中每一个层中的神经单元个数),然后让子网络在这个超参数下去完成一个图像分类的任务,从而得到精确度R。然后利用这个R再来训练控制器。也就是说,我们将控制器作为主体,将子网络当作是环境,子网络的表现(精度R)作为回报反馈给主体,从而让主体设计出越来越好的超参数。
利用这种强化学习的模式我们可以更加有效地对超参数空间进行搜索,从而设计出远高于现有网络表现的超参数集合。

规划又是一个经典的人工智能任务,它可以指导机器人完成复杂的序列化的任务。在经典人工智能中,我们是通过搜索来完成规划策略的制定的,然而它的弊端是规划出来的策略很难具有应付环境多样性的灵活性。于是,人们寻求一种能够用神经网络来改造自动规划的方案。

如上图,这是NIPS2006会议的最佳论文工作。UC伯克利的一个人工智能团队用卷积神经网络完成了“柔性规划”,并具有非常好的泛化能力。他们的基本想法是将经典的强化学习算法中的价值迭代算法类比为一个多层次的卷积神经网络,从而用深层的网络对应了多步价值迭代的能力。经过训练之后,这个价值迭代网络不仅能够指导着主体完成动态规划,而且还能够具备非常强大的规划能力,这要比单纯依赖CNN的算法更好。
总之,现在的人工智能技术发展的前沿就是将经典的人工智能和最新的深度学习、人工神经网络进行完美的融合。这种融合不仅可以让人工智能程序能够进行比较“深”的思考能力,而且又可以具备一定的柔性和适应能力,这是我们通往强人工智能的一个必经阶段。

相关论文与课程
关于自然语言处理如何提取深度语义信息,请看徐飞玉的课程:自然语言理解及其应用
http://campus.swarma.org/vdetail=10279?src=2

关于神经网络优化神经网络,请参看Google Brain的这篇论文:
Barret Zoph, Quoc V. Le: NEURAL ARCHITECTURE SEARCH WITHREINFORCEMENT LEARNING, https://arxiv.org/abs/1611.01578
关于价值迭代网络,请参看这篇论文:
Aviv Tamar, Yi Wu, Garrett Thomas, Sergey Levine, and Pieter Abbeel : Value Iteration Networks, https://arxiv.org/abs/1602.02867
也可参看张江的课程:价值迭代网络
http://campus.swarma.org/gcou=10292?src=2
关于神经图灵模型,请参看Deep Mind团队的这篇论文:
Alex Graves1*, Greg Wayne et al.: Hybrid computing using a neural network with dynamic external memory, Nature, Vol 538, 471, 2016
也可参看甄慧玲的解读视频:记忆与记忆网络
http://campus.swarma.org/gcou=10067?src=2

关于AlphaGo的原理,请参看Deep Mind的论文:
David Silver1*, Aja Huang et al: Mastering the game of Go with deep neural networks and tree search, Nature, Vol 529, 484, 2016
也可参看张江的解读:揭秘AlphaGo
http://campus.swarma.org/gcou=10283?src=2


更多阅读

集智QQ群|292641157
商务合作|zhangqian@swarma.org
投稿转载|wangting@swarma.org
◆ ◆ ◆
搜索公众号:集智俱乐部
加入“没有围墙的研究所”

让苹果砸得更猛烈些吧!
始发于微信公众号: 集智俱乐部





