张江北京师范大学副教授，集智俱乐部、AI学园创始人，腾讯研究院、阿里研究院、网络智库专家、人工智能研究者与布道师。

导语

人工智能真的来了！

有人说，这也许会是人类历史上的最后一次革命！所有人都希望能够乘上AI这条巨龙，跨入未来。然而，在行动之前最好还是先做好准备，我们必须具备与AI同样高、同样广阔的视野，否则我们还没爬上龙背就会被它摔死。于是，我写下了“AI视野”这个系列文章，希望它们能够借各位看官一双慧眼……

（AI视野导读篇：揪着自己的头发逃离地球）

如果说AI是条巨龙，那么，深度学习就是这条龙的眼睛，然而深度学习究竟意味着什么？尽管现在对深度学习的报道可以说是铺天盖地，但这些文章要么过于局限在算法的细节，要么偏重于某一领域的应用。没错，从技术的角度来说，深度学习不过是一种深层次的神经网络；从科学的角度说，深度学习其实是一种表征学习算法。然而，我觉得这些理解虽然都没错，但都过于狭隘。我更感兴趣的是如果我们将深度学习这样一种技术放到一个更大的社会背景中看，它究竟意味着什么？

这就好像当年的互联网革命，如果我们仅仅从TCP/IP协议的角度来看，是很难理解为什么共享单车这种奇葩存在能够在今天的大街小巷大行其道。只有当我们认识到，互联网实际上就是一种便捷的链接万物的利器的时候，我们才能看懂互联网革命。

同样的道理，若想看清深度学习的本质，我们就必须跳出技术细节，从一种更大的视角去理解深度学习在整个技术、甚至社会生态背景之中所发挥的作用。这篇文章就尝试着带领读者走入这一更大的视角。我们首先将历数最近几年深度学习取得的突破进展；然后我们给出了本篇文章的核心观点，深度学习，更确切地说是深度学习神经网络是一种重度、高通量的语义链接器。具备了这种认识之后，我们就可以在拓展我们的想象力，创造出更多的应用。

深度学习的辉煌战绩

首先，让我们先来看看深度学习都给我们带来了哪些突破。

模式识别

由于这部分应用的相关报道很多，我将一带而过。大概在2006年左右，深度学习首先在语音和图像的识别上取得了重大突破，准确度有了大幅度飙升。到了大概2013年左右，随着RNN和LSTM在对话生成、机器翻译等任务中的应用，人们在自然语言理解方面也有了重大的进步。至此，深度学习基本完成了第一波创新浪潮。然而，相比较语音和图像，深度学习在自然语言上的进展并没有那么惊艳。

接下来，让我们看一看深度学习更有创意的应用。

看图说话

看图说话（给图片加描述信息）是一个令人印象深刻的应用，通过在技术上整合CNN和RNN这两种不同架构，网络可以像人类小孩一样看懂图片，并输出相应的文本描述。

读唇识音

DeepMind团队不愧是全球最厉害的人工智能团队（恐怕没有之一），他们不仅在理论工作上表现非凡（AlphaGo、机器打游戏），也是应用方面的高手。比如，读唇识音这个应用就非常有创意。他们把Google的神经翻译机应用在了唇语这样一种极其特殊的语言上，最终导致了机器的识别准确率高达50%左右，远超过人类读唇专家的25%准确度。

生成任务

近期的深度学习研究热点从识别转到了生成任务。无论是令人印象深刻的语音合成（现在的滴滴打车就在利用科大讯飞的语音生成技术合成了郭德纲、林志玲的声音），还是被Yann LeCun誉为“近十年机器学习领域最有趣的事情”的GAN（Generated Adversial Network，生成对抗网络），它们都可以看作是数据生成的方法突破。如图所示，GAN算法可以将视频中的一匹骏马瞬间变成斑马，它还能根据一个轮廓而自动填充其中的内容，甚至还可以根据一段话的描述，而生成相应的图片。

根据轮廓填充图像

根据文字，生成相应的图片

机器理解

机器阅读理解任务，下面的文字为提问的问题，粉红色的区域为机器回答问题的时候注意力集中的焦点区域

2016年上海Brain of things公开比赛中的图片理解任务（图片下面的文字为问题，数字为10个参赛团队中，回答正确的个数）

最近深度学习的另一个研究趋势就是让机器具有更高层次的思维，例如机器阅读理解或者基于图片的理解与问答等任务。在这些任务中，传统的RNN或LSTM已经很难做到出色，人们不得不借助诸如神经图灵机、记忆、注意力等机制才能做好。深度学习与传统符号AI（搜索、推理等）的结合是如今人工智能发展的一大趋势。

深度学习应用的本质

广义的翻译

细数这些令人印象深刻的深度学习应用不难发现，它们其实都可以看作是一种从输入信息到输出信息的映射，只不过这种映射超级复杂，需要用庞大且深邃的神经网络来实现。

例如，在语音、图像、自然语言的识别中，输入端可以是语音、图像、视频，或者一个符号序列；输出的则是相应的类别标签，从而辅助人们进行标识和理解。所以，我们可以认为这种任务实际上是声音、图像、序列到标签的映射。

同样，看图说话、读唇识音也是一种从输入到输出的映射，它们分别是将图像和视频映射成了文本文字。或者更形象地说，其实它们都是完成了一种广义上的翻译。机器可以把图片翻译成文字，把口型翻译成文本。在这两个任务中，相比较前面的识别任务，输出端变得略微复杂，其它并无本质不同。

生成任务也是一种输入到输出的映射，也是一种翻译。比如，在马变斑马中，我们把马“翻译”成了斑马。同样，在根据文字生成图片的例子中，我可以把文字翻译成图片。

这些任务从表面上看五花八门，高深莫测，但是其实这里面并没有多少“智能”可言。因为，我们只需要把大量这样的输入－输出对数据喂给深度学习网络就可以让它学到其中的规律，从而给出八九不离十的答案。

重度、高通量的语义链接器

在深度学习界，人们用“端到端”（End2End）这个词来概括所有诸如此类的模型和应用，我觉得非常形象。我们可以将上面的各种应用概括为下图：

深度学习应用的本质：一种端到端的链接器

从这张图我们不难看出，实际上深度神经网络就是一种链接器，它可以将两个端紧密地链接到一起。无论这个神经网络链接器的训练多么复杂，也无论其中的技术多么酷炫，所有深度学习的应用都不碍乎在两个端之间搭建出这样一座链接器桥梁，这恰恰就是深度学习应用的本质。

也许你会觉得这样的结论有些不过瘾！链接器？我们的网线不也是链接器吗？难道说，深度神经网络和网线一样，仅仅是个链接装置？那模式识别能力呢？智能呢？

当然，和互联网时代的链接器相比，深度神经网络这种链接器是非常不同的，它有三大特性：

1、重度

这里面的重度的意思是说从输入到输出的链接其实不止一条，而是很多条。所以，神经网络这种链接带宽超高。

2、高通量

由于神经网络的工作都是并行的，所以一旦它运行起来，它就可以让多条通路同时工作、传递信息。这样，神经网络通道的信息吞吐量就会比一般的通信信道要大得多，这就是高通量的含义。

3、模式与语义

与经典通信线路最本质的区别，就在于神经网络链接器中传递的不是经典的确定性信息，而是具有模糊性的高层信息。为什么这么说呢？因为神经网络的本事就在于它可以在大量的底层经典线路之上涌现出具有意义的Pattern（模式）。比如，我们做人脸识别的时候，输入给网络的就是细化到每个像素的经典信息，然而网络在整体却能够识别人脸中的模式，从而生成人类能看懂的标签。

因此，神经网络可以处理模糊信息，它可以将大量经典线路之上所浮现出来的模式（Pattern）进行传递。如果我们将一切端到端的学习都看作是广义的翻译，那么我们就不难理解，当机器做翻译的时候，它实际上是在传递隐藏在具体语言背后的Pattern，这种Pattern正是隐藏在大量符号中的“语义”。一种意义可以有不同种表述方式，也就有不同的经典意义的信息，而一个训练好的神经网络恰恰可以捕获这些多样信息背后的不变模式，从而准确地把“意义”而不是信息传递给接收端。所以，广义地说，深度神经网络的本质其实就是一种传递“语义”的重度、高通量的链接器（如下图）。经典信道与深度学习构成的信道对比

如果我们从信息论的角度来看待端到端式的深度学习网络，那么我们可以得到两种不同的信道，一种是传递经典信息的信道，一种是传递“语义”的深度学习信道。我们知道，Shannon的信息论仅仅讨论经典信息在网络传输中的规律，但是针对信息的含义却始终无法触及。深度学习信道的出现也许会给经典信息论提供巨大的机会与挑战，因为这种信道本质上就是在传递信息背后的“语义”。

深度学习的未来应用

一旦我们了解到了深度学习网络的本质就是一种重度、高通量的意义链接器，那么我们就不难张开我们的想象翅膀，创造出各式各样的应用。

深度学习应用矩阵

首先，让我们考虑通讯的两端都是人的情况。人作为一种复杂系统，既是一个高通量的信息源，又是一个需要消耗大量信息的信息汇，每时每刻人都在吞吐着大量的信息，所以深度学习神经网络这种链接器非常适合成为一种人机交互界面。

例如，Andrei Cheremskoy就系统性地研究了深度学习的应用，并提出了一套称为组合矩阵的方法。他将人类能够传达、感受的信息，分成了听觉、视觉、运动和符号几种模态，而每一种模态又可以根据发送和接受分成生成器和识别器两种。这样，我们可以把所有这些模态以及所有的发送、接收方式列出来形成下列的矩阵。

除了涂灰的对角线，我们可以将任意两项组合在一起而得到一种应用。例如，当我们组合Speech generator（语音生成）和Speech recognizer（语音识别）的时候，我们就可以得到“彩云小译”这款应用，它相当于一个同声传译。当我们将Image recognizer（图像识别）和Natural language generator（自然语言生成）组合在一起之后，就可以得到看图说话的应用。当我们将Motion recognizer（运动识别）和Speech generator（语音生成）组合在一起之后，就可以得到给无声电影配音这样的深度学习应用（参见：http://machinelearningmastery.com/inspirational-applications-deep-learning/）。当然，有些组合表面上看起来可能并没有太大的意义，比如Natural language generator和Image generator组合在一起可能会创造出一种由机器生成的语言，然后再根据这种语言生成一张图片的应用，然而不知道它有何作用。有关组合矩阵的更多详情请参考（https://www.javacodegeeks.com/2016/11/systematic-approach-applications-deep-learning.html）。

彩云小译

形态矩阵

进一步，我们知道人类有眼、耳、鼻、舌、身这五种感官，不同感官也会创造出更多有意思的深度学习应用。Andrei Cheremskoy又提出了形态矩阵（Morphological Matrix），用以描述每一种信息模态下的可能应用方式。

如上图所示，每一列表示一种信息模态，每一行对应了一种信息呈现方式。例如，对于听觉这个模态来讲，它可以呈现为语音、音乐和声波这三种可能的呈现方式。每一种方式又可以分为识别和生成这两种任务，这便形成了形态矩阵。我们将表中的任意两项组合在一起就可创造出一个组合矩阵中的项，所以形态矩阵可以生成组合矩阵，进而大大丰富深度学习的应用范围。

值得注意的是图中打着问号的几项，味觉、嗅觉和触觉以及未知的模态，人们尚没有开发出这种感官的识别或者生成算法，但有可能蕴含着非常有意思的应用。

例如，如果我们开发出了一种嗅觉传感器，可以通过分析物体周围空气的分子成分而识别出这种东西的属性，那么人工鼻子就会出现，而且嗅觉甚至可以比人类更灵敏。目前，这种电子鼻子已经应用到了潜艇故障检测之中。我相信，配备了深度学习算法和大数据后，电子鼻可以超越警犬来进行刑侦断案。

沿着这个思路，我们可以想到，更有意思的应用也许在于气味生成器。比如，它可以将一段音乐转化成某种气味，从而让我们用嗅觉来去享受音乐。这也可以帮助聋哑人“嗅”到周围的声音。

另一方面，触觉也是一块远没有被开垦的处女地。我们知道，我们的皮肤每时每刻都在接受大量的外界信息，因为巨量的分子每时每刻都在撞击着我们皮肤上的表皮细胞。只不过，这么大量的信息并没有输入到我们的头脑意识之中。有的时候，我们处于某地就会觉得莫名的不舒服，那很有可能就是表皮细胞接受到了一些难以名状的信息让我们产生了这样的感觉。深度学习网络是否可以开发出这样特殊的信道呢？我们将在AI视野系列后面的文章中对这个问题进行详细描述。

通感装置

前面提到的应用还仅限于人和人之间的沟通，我们开发的是人类的眼、耳、鼻、舌、身等信号通道，但实际上一旦深度学习技术成熟之后就不一定局限于此。比如，我们可以让信息的一端输入一个复杂系统的状态，比如股票市场；另一端是我们人类能够感知的信号通道，那么我们就可以通过深度神经网络将两端连接在一起，从而做到通感，也就是我们可以听到股市的歌声；或者“嗅到”一个在线社区的“情绪”。

具体地，假如一个神经网络的输入端是股市大盘上千支股票的价格波动，另一端则对应了一段优美的音乐，这样经过深度学习，网络可以得到从价格波动到音乐之间的映射。我们就可以用听的方式来了解股票市场的整体情况了。比如，当大盘疯狂下跌的时候，它会播放悲壮的曲子，当大盘走高的时候，它会生成令人亢奋的进行曲。运用这样的重链接、高通量的语义通道，我们能够获得通感的能力，去感受复杂系统。下图展示了这种聆听股市的装置的信息流。我们可以通过强化学习的方式训练生成音乐的网络和音乐情绪识别的网络，从而找到适合每个人的股市音乐。

万物沉浸

我们还可以仿照这种方法建立物与物之间的深度通信。例如，我们可以训练一个神经网络，将天气状态映射为智能客厅中的家具摆放状态，于是我的房间就会根据天气的不同而呈现出不同的家具摆放模式。这样，房间就会在不同的季节得到一个让人感觉最舒适的布局，所有这一切都不需要工程师的设计，而是神经网络自动学习得到的。

在心理学领域中有一个沉浸的概念，它是指当人与外界事物的通讯信息量非常大的时候，人就会进入心流状态，从而沉浸到了这个事物之中。当深度学习网络作为链接器横跨在大量系统之间的时候，不同系统之间就彼此沉浸其中，从而使得整个系统表现得更像一个整体。总之，当深度学习链接器普遍存在的时候，万物（或者至少是人造物）之间的隔阂和边界也将会越来越模糊。