导语

新的“信息瓶颈”理论帮助我们理解当今人工智能算法成功的奥秘，也许还同时能解开人脑学习的机制。

转载自：知社学术圈

来源：Quantamagazine

原题：

New Theory Cracks Open the Black Box of Deep Learning

以“深度神经网络”形式出现的人工智能如今学会了交谈，驾驶汽车，打游戏，下围棋，做梦，画画，乃至协助科学研究。但作为它们的创造者，人类却始终没有太搞清楚所谓“深度学习”算法为什么能表现这么好，这些学习系统当初设计时没有任何基本原则可以依循，凭借的只是从大脑架构中抽取的模糊灵感。

如大脑一般，深度神经网络有多层神经元。当一个神经元接受刺激，它会向上层的神经元传递信号。深度学习的时候，网络中的信号会根据需要增强或是减弱，以使系统更好地实现输入数据到发送信号的过程。

图1 输入狗的图案像素，通过高层级的神经输出“狗”的概念。在深度学习网络经过数千张狗的照片样本进行学习之后，AI可以像人一样准确识别新照片中的狗。

正如人类的推理，创造力和其他系统能力称为“智能”一样，AI从特殊情况到学习过程中的一般概念的神奇飞跃为深层神经网络的建立提供了强大的基础，科学家们希望弄清楚是什么实现了这个对一般概念的识别过程，以及现实生活中人脑在多大程度上以同种方式理解现实。

信息瓶颈

不久前，来自耶路撒冷希伯来大学的计算机科学家和神经科学家Naftali Tishby就其提出的机器如何进行学习的理论呈现了一些证据。Tishby称，深度神经网络学习时会经历一个叫做“信息瓶颈”的过程，他和两位合作者在1999年从纯理论视角首次描述了这一过程。

希伯来大学计算机科学家和神经学家Naftali Tishby

Bilibili弹幕网深度学习信息论（by Naftali Tishby）：

https://www.bilibili.com/video/av14118708/

番号：av14118708

该理论认为，神经网络在包含大量细节且充满噪声的输入数据中游刃有余，就像是将信息挤压通过瓶颈，只保留与一般概念最相关的主要信息。Tishby和他的学生Ravid Shwartz-Ziv进行了新的计算机实验，揭示了这种“挤压”过程在深度学习过程中是如何发生的，至少是在他们研究的案例中存在的共性。

Tishby的研究成果令整个AI研究领域大为震惊。谷歌研究院的Alex Alemi表示，他已经开发出将信息瓶颈分析应用于大型深度神经网络的近似算法。信息瓶颈不仅能成为理解神经网络运行方式的一种理论工具，还可以作为新目标和新网络架构的构建工具。

一些研究者仍然对该理论是否能完全解释深度学习的成功持怀疑态度，但纽约大学用机器学习来分析大型强子对撞机的粒子碰撞的物理学家Kyle Cranmer表示，作为一种通用的学习原理，该理论感觉是有些道理的。

在谷歌和多伦多大学工作的深度学习先驱Geoffrey Hinton向Tishby发邮件说：“我还需要多花些时间才能理解这个理论，现在原创性的想法太少了，你的理论非常有趣，它可能会解决一个真正的难题。”

Tishby认为，信息瓶颈是学习背后的基本法则，无论你是一个算法、一只家蝇、一个有意识的存在，还是自发行为的一种物理计算，学习最重要的组成部分其实是忘记。

信息相关度

Tishby很早便开始思考信息瓶颈的问题，那个时候深度神经网络还只是初现雏形，而且信息瓶颈与深度神经网络的概念均未被提出。那是二十世纪八十年代，Tishby在琢磨当时很热门的一个人工智能问题，即人类是如何进行语音识别的。

Tishby意识到问题的关键在于有效性或相关度——

口语最关键的特征是什么？
我们如何从众多的特性中去掉无关的如口音、嚅嗫、重音习惯等，挑选出关键特征从而分辨不同的词语？
通常来说，我们面对现实世界中的海量数据时，我们保留哪些信号？

接受采访时，Tishby说：“历史上信息相关度这个想法曾多次被提及，却从未被系统地提出过。多年来人们一直认为信息论关注的问题不在相关度，这种误解可以追溯到Shannon本人。”

Claude Shannon是信息理论的创始人，上世纪40年代，他将信息以抽象的数学概念0和1表达出来，某种程度上来说，他解放了信息研究。Shannon认为，信息不关乎语义，但Tishby认为这是不正确的，他认为，在信息论的基础上，你可以精确定义“语义”。

假设X是一个复杂的数据库，就像狗的照片里的像素一样，Y是由这些数据体现的更简单的变量，比如“狗”这个词，你可以任意压缩X而不丢失预测Y的能力，将X中所有与Y“相关”的信息捕获下来。Tishby说：“我在各种背景下思考这些问题思考了30年，最大的幸运大概是赶上了现在深度神经网络变得如此重要。”

画面上人眼球的识别

尽管深度神经网络背后的概念已经存在了几十年，但直到2010年代早期，随着训练方案和计算机处理能力的更进，它在语音和图像处理方面的能力才起飞。Tishby读了物理学家David Schwab和Pankaj Mehta在2014年发表的一篇论文后，开始注意到深度学习与信息瓶颈理论的关联。

David Schwab和Pankaj Mehta发现，由Hinton发明的“深度信念网络”（DBN），在特定的情况下，类似物理学中的重整化（renormalization），也就是以粗粒度的方式获取物理系统的细节，从而计算其整体状态。

当Schwab和Mehta将深度信念网络应用于一个处于“临界点”的磁力模型时（这时该系统是分形，在任意尺度都自相似），他们发现，网络会自动经过一个类似重整的过程来发现模型的状态。

这个现象十分惊人，生物物理学家Ilya Nemenman评论其表明了“在统计物理的背景下提取相关特征和在深度学习的背景下提取相关特征并不只是类似，完完全全就是同一件事。”

然而现实世界不是分形的。Cranmer说：“自然界不是单一形状比如耳朵的叠加，而是眼球在人脸上在画面里，所以我不会说重整化步骤就是深度学习在处理自然图像时效果这么好的原因。”

Tishby的解读稍有不同，他意识到深度学习和粗颗粒过程也许可以用一个更广义的概念来包含。当时正因患胰腺癌而接受化疗的Tishby说：“思考科学和我早期想法可能的启示是助我战胜病魔和恢复的重要疗程。”

网络在抽取相关性时的理论边界

2015年开始，Tishby和他的学生Noga Zaslavsky开始假设信息瓶颈是深度学习的实现过程，他们尽可能地压缩噪音数据，并最大可能地保留数据代表的主要信息。Tishby和Shwartz-Ziv使用深度神经网络的新实验揭示了信息瓶颈发挥作用的本质过程。

Naftali Tishby的学生Noga Zaslavsky（左）和Ravid Shwartz-Ziv，他们帮助开发了深度学习信息瓶颈理论。

在一次实验中，研究人员通过训练小型神经网络，使其能够以1或0（也即“是狗”或“不是狗”）标记输入数据，并给出其282个神经连接随机初始强度，然后跟踪了网络在接收3000个样本输入数据集后发生了什么。

在实验中，Tishby与Shwartz-Ziv追踪了深度神经网络中每一层的输入数据信息量，以及各输入数据中有多少信息得到保留。

他们发现，神经网络会逐层向信息瓶颈理论界限收敛：Tishby、Pereira与Bialek的原始论文中设定了一个理论上限，其代表着系统能够在进行相关度信息提取时获得的最佳结果。在这一临界点上，神经网络能够尽可能压缩输入数据，同时不会影响到其作出准确预测的能力。

Tishby和Shwartz-Ziv还有一个有趣的发现：深度学习分两个阶段进行：一个是简短的“拟合”阶段，在此期间网络学习去标记其训练数据，另一个是较长的“压缩”阶段，在此阶段它开始获得强大的归纳能力，即标记新的测试数据。

当深度神经网络通过随机梯度下降来调整其连接权重时，首先其存储的关于输入数据的比特数字会保持大致恒定或略微增加，与此同时连接调整以对输入中的模型进行编码，神经网络本身也将更好地与正确标签相契合。部分专家将这一阶段与人类的记忆进行了比较。

然后学习过程切换到压缩阶段。网络开始筛掉一些输入数据的信息，只追踪其中最强大的特征——包括与输出标签相关度最高的特征。这是因为，在随机梯度下降的每次迭代中，训练数据中或多或少的意外相关会让网络做不同的判断，并在随机游走中引发上下层调用以调整神经连接的强度。

上图展示了SGD过程中信息逐层传递收敛的情况。

这种随机化实际上与压缩系统的输入数据表示相同。比如，当神经网络在学习识别狗的时候，一些照片中可能有房屋的背景，一些则没有，那么它就会选择性忽略房屋这一特征。在Tishby和Shwartz-Ziv看来，正是这种选择性忽略带来了归纳的通用认识。事实上，他们的实验结果表明，深层神经网络在压缩阶段提高了通用化能力，从而改善其在测试数据标记方面的成效。

那么，“信息瓶颈”理论是否适用所有的深度学习？

“信息瓶颈”是否适应所有的深度学习，压缩之外是否还有其它归纳途径，都尚待观察。

很多人工智能的专家都十分看重Tishby的这个理论，哈佛大学人工智能研究员兼理论神经科学家Andrew Saxe指出，某些非常大的深度神经网络似乎不需要专门的压缩阶段来归纳。相反，研究人员立足所谓“早期停止”方法进行编程，能够有效减少训练时间和防止网络编码中存在过多相关性。

Tishby认为，Saxe及其同事分析的网络模型与标准的深度神经网络架构不同，但无论如何，信息瓶颈提出的理论界限决定了此类网络的通用化效能要比其它方法更好。关于瓶颈是否适用于较大神经网络，Tishby和Shwartz-Ziv的最新实验部分解决了这一问题。

在最新的这项实验中，Tishby他们训练了拥有33万连接的深度神经网络，识别美国国家标准和技术研究所数据库（Modified National Institute of Standards and Technology database）中60,000张手写数字的图像，这套数据是衡量深度学习算法性能的一个知名基准。

科学家们发现，神经网络的实际表现与信息瓶颈的理论界限存在趋同性; 他们还发现，相较于小型网络，这套大规模深度学习网络中，Tishby提及的两个阶段更加清晰，他说，“我现在完全相信信息瓶颈属于一种普遍现象。”

人类与人工智能

早期主要驱动深度学习研究者兴趣的，是人类感官的信号是如何上升到意识层面的。这一课题推动了人工智能先驱们研究深层神经网络的早期兴趣，即以逆向方式设计出大脑的学习规则。但时至今日，人工智能从业者在很大程度上已经放弃了这条钻研之路，转而开始利用其它途径小幅提升效能表现。

尽管如此，随着智能机器所取得的成就日益升级——甚至让某些人开始担忧人工智能终有一天将构成严重威胁，许多研究人员希望此类探索能够揭示出关于机器学习与智能实现的一般性结论。

纽约大学心理学和数据科学助理教授Brenden Lake的研究主要专注于人类学习和机器学习的异同点，他评价Tishby的发现是“打开神经网络黑匣的重要一步”，但他强调，大脑是一个更大且更神秘的黑盒子。

成年人的大脑，860亿个神经元之间存在数百万亿个连接点，一定是存在某些技巧来增强归纳能力的，不仅仅是婴儿时期发生的基本图像和声音识别过程，这在很多方面可能与深度学习类似。

Lake说，Tishby观察到的拟合和压缩阶段，似乎不能对应到儿童学习手写字符的过程中。人类孩子学习认字写字，并不需要看数千个字符并在比较长的时间中压缩其在思维中的呈现。事实上，人类儿童可以从单独一个样本中学习。

Lake和其同事们的模型表明，大脑能够将新字母解构成一系列笔画，即立足原有认知建立字母概念。

Lake解释说：“我不会把信件上的图像想象成一个个像素，并像标准机器学习算法那样对这些特征加以映射。我的目标在于建立一套更为简单的因果模型。”也就是实现一条更短的归纳路径。

这种想法可能为人工智能社群提供一些指导，进而推动两个领域之间的交互往来。