透视深度学习,畅想未来应用——AI视野(二)| 张江
张江 北京师范大学副教授,集智俱乐部、AI学园创始人,腾讯研究院、阿里研究院、网络智库专家、人工智能研究者与布道师。
导语
人工智能真的来了!
有人说,这也许会是人类历史上的最后一次革命!所有人都希望能够乘上AI这条巨龙,跨入未来。然而,在行动之前最好还是先做好准备,我们必须具备与AI同样高、同样广阔的视野,否则我们还没爬上龙背就会被它摔死。于是,我写下了“AI视野”这个系列文章,希望它们能够借各位看官一双慧眼……
如果说AI是条巨龙,那么,深度学习就是这条龙的眼睛,然而深度学习究竟意味着什么?尽管现在对深度学习的报道可以说是铺天盖地,但这些文章要么过于局限在算法的细节,要么偏重于某一领域的应用。没错,从技术的角度来说,深度学习不过是一种深层次的神经网络;从科学的角度说,深度学习其实是一种表征学习算法。然而,我觉得这些理解虽然都没错,但都过于狭隘。我更感兴趣的是如果我们将深度学习这样一种技术放到一个更大的社会背景中看,它究竟意味着什么?
这就好像当年的互联网革命,如果我们仅仅从TCP/IP协议的角度来看,是很难理解为什么共享单车这种奇葩存在能够在今天的大街小巷大行其道。只有当我们认识到,互联网实际上就是一种便捷的链接万物的利器的时候,我们才能看懂互联网革命。
同样的道理,若想看清深度学习的本质,我们就必须跳出技术细节,从一种更大的视角去理解深度学习在整个技术、甚至社会生态背景之中所发挥的作用。这篇文章就尝试着带领读者走入这一更大的视角。我们首先将历数最近几年深度学习取得的突破进展;然后我们给出了本篇文章的核心观点,深度学习,更确切地说是深度学习神经网络是一种重度、高通量的语义链接器。具备了这种认识之后,我们就可以在拓展我们的想象力,创造出更多的应用。
首先,让我们先来看看深度学习都给我们带来了哪些突破。
由于这部分应用的相关报道很多,我将一带而过。大概在2006年左右,深度学习首先在语音和图像的识别上取得了重大突破,准确度有了大幅度飙升。到了大概2013年左右,随着RNN和LSTM在对话生成、机器翻译等任务中的应用,人们在自然语言理解方面也有了重大的进步。至此,深度学习基本完成了第一波创新浪潮。然而,相比较语音和图像,深度学习在自然语言上的进展并没有那么惊艳。
接下来,让我们看一看深度学习更有创意的应用。
看图说话(给图片加描述信息)是一个令人印象深刻的应用,通过在技术上整合CNN和RNN这两种不同架构,网络可以像人类小孩一样看懂图片,并输出相应的文本描述。
DeepMind团队不愧是全球最厉害的人工智能团队(恐怕没有之一),他们不仅在理论工作上表现非凡(AlphaGo、机器打游戏),也是应用方面的高手。比如,读唇识音这个应用就非常有创意。他们把Google的神经翻译机应用在了唇语这样一种极其特殊的语言上,最终导致了机器的识别准确率高达50%左右,远超过人类读唇专家的25%准确度。
根据文字,生成相应的图片
广义的翻译
一旦我们了解到了深度学习网络的本质就是一种重度、高通量的意义链接器,那么我们就不难张开我们的想象翅膀,创造出各式各样的应用。
彩云小译
值得注意的是图中打着问号的几项,味觉、嗅觉和触觉以及未知的模态,人们尚没有开发出这种感官的识别或者生成算法,但有可能蕴含着非常有意思的应用。
例如,如果我们开发出了一种嗅觉传感器,可以通过分析物体周围空气的分子成分而识别出这种东西的属性,那么人工鼻子就会出现,而且嗅觉甚至可以比人类更灵敏。目前,这种电子鼻子已经应用到了潜艇故障检测之中。我相信,配备了深度学习算法和大数据后,电子鼻可以超越警犬来进行刑侦断案。
沿着这个思路,我们可以想到,更有意思的应用也许在于气味生成器。比如,它可以将一段音乐转化成某种气味,从而让我们用嗅觉来去享受音乐。这也可以帮助聋哑人“嗅”到周围的声音。
另一方面,触觉也是一块远没有被开垦的处女地。我们知道,我们的皮肤每时每刻都在接受大量的外界信息,因为巨量的分子每时每刻都在撞击着我们皮肤上的表皮细胞。只不过,这么大量的信息并没有输入到我们的头脑意识之中。有的时候,我们处于某地就会觉得莫名的不舒服,那很有可能就是表皮细胞接受到了一些难以名状的信息让我们产生了这样的感觉。深度学习网络是否可以开发出这样特殊的信道呢?我们将在AI视野系列后面的文章中对这个问题进行详细描述。
前面提到的应用还仅限于人和人之间的沟通,我们开发的是人类的眼、耳、鼻、舌、身等信号通道,但实际上一旦深度学习技术成熟之后就不一定局限于此。比如,我们可以让信息的一端输入一个复杂系统的状态,比如股票市场;另一端是我们人类能够感知的信号通道,那么我们就可以通过深度神经网络将两端连接在一起,从而做到通感,也就是我们可以听到股市的歌声;或者“嗅到”一个在线社区的“情绪”。
具体地,假如一个神经网络的输入端是股市大盘上千支股票的价格波动,另一端则对应了一段优美的音乐,这样经过深度学习,网络可以得到从价格波动到音乐之间的映射。我们就可以用听的方式来了解股票市场的整体情况了。比如,当大盘疯狂下跌的时候,它会播放悲壮的曲子,当大盘走高的时候,它会生成令人亢奋的进行曲。运用这样的重链接、高通量的语义通道,我们能够获得通感的能力,去感受复杂系统。下图展示了这种聆听股市的装置的信息流。我们可以通过强化学习的方式训练生成音乐的网络和音乐情绪识别的网络,从而找到适合每个人的股市音乐。
我们还可以仿照这种方法建立物与物之间的深度通信。例如,我们可以训练一个神经网络,将天气状态映射为智能客厅中的家具摆放状态,于是我的房间就会根据天气的不同而呈现出不同的家具摆放模式。这样,房间就会在不同的季节得到一个让人感觉最舒适的布局,所有这一切都不需要工程师的设计,而是神经网络自动学习得到的。
在心理学领域中有一个沉浸的概念,它是指当人与外界事物的通讯信息量非常大的时候,人就会进入心流状态,从而沉浸到了这个事物之中。当深度学习网络作为链接器横跨在大量系统之间的时候,不同系统之间就彼此沉浸其中,从而使得整个系统表现得更像一个整体。总之,当深度学习链接器普遍存在的时候,万物(或者至少是人造物)之间的隔阂和边界也将会越来越模糊。
尾声
有人说机器学习、神经网络的本质就在于预测,这本没有错,我们的确可以用深度学习来做预测。但是,站在全局层面看,深度学习的预测作用还非常有限。但是当各种深度学习芯片铺天盖地地进入市场的时候,神经网络的高通、重度、语义链接属性就会变得越来越重要。
在这种情况下,修建高通量通道将会变得可能,人与人、人与物,以及物与物之间的联系将会变得更加紧密、更加深入,整个世界也将会在更深的层面相互连接形成一个整体,这就是本篇文章所要传达的观点。
然而,这还仅仅是人工智能革命的开始。正如当年互联网让链接万物的能力迅速普及到我们的生活,人类社会就会发生天翻地覆的变化一样,当重度、高通、语义链接器普及到各个角落的时候,人类乃至整个地球必然也会发生更巨大的变化。更多详情,请您继续关注我们的AI视野系列文章。
当然,在当今重要的深度学习革命中,还有一个方面我没有涉及,这就是AlphaGo中使用的深度强化学习。该算法显然是一项重大的突破,它将古老的强化学习和深度学习联合了起来。
该算法显然是一项重大的突破,它将古老的强化学习和深度学习联合了起来。然而,这种应用与本文讨论的内容却并不兼容,关于这一点,我会另文详述。
关于深度学习,请参看课程:(或者点击阅读原文)
http://campus.swarma.org/vdetail=10136?src=2
关于机器翻译课程:
http://campus.swarma.org/gcou=10062?src=2
集智QQ群|292641157
商务合作|zhangqian@swarma.org
投稿转载|wangting@swarma.org
◆ ◆ ◆
搜索公众号:集智俱乐部
加入“没有围墙的研究所”
让苹果砸得更猛烈些吧!
始发于微信公众号: 集智俱乐部