讲座笔记分享：深度学习在自然语言处理中的应用 | 原创精选

2016-12-18 3,043 0

（此篇文章是清华大学博士生周园童鞋对上周AI界大神吕正东的讲座所记录的笔记，欲知吕大神讲座盛况请看往期精彩回顾，欲和周园童鞋探讨天文地理、科技学术、人生百态请后台留言~）

周园，集智俱乐部科学家成员，小袋鼠实验室联合创始人。清华大学博士生，对遥感数据处理、复杂系统和机器学习感兴趣。

本文总结整理了一下2016年12月10日，集智俱乐部公开活动了AI界著名学者兼实践者、深度好奇公司CTO吕正东博士「深度学习与自然语言（NLP）处理」所做报告。报告深入浅出，很适合快速系统了解这一领域的基础框架和最新动态。报告涉及的自然语言处理是AI领域热门而前沿的问题，其中众多术语从一线实践中产生，很多还没有恰切的中文翻译，需要结合语境理解。在此，我仅从一个外行感兴趣听众的角度，结合自己的专业相通之处，借助一些资料文献，做一个粗浅的疏理和注解，希望对一部分读者入门这个领域有一点帮助。

第一部分首先对NLP中最基本的原理，Word embedding 的概念和语言模型作了直观介绍。Embedding可以翻译为嵌入、结合Word也可以翻译成词向量，也就是将词汇或语句向量化、抽象成测度空间中的数值，加以计算分析。Embedding在地学中有类似过程，如将客观地里对象测绘成地图的过程可以用Embedding形容，即用有限、固定的维数尽可能充分地表示客观现实对象信息。对向量空间进行聚类和排序的过程，其原理是多元统计分析中的降维。

第一部分中，报告还对NLP应用的进展按不同方面进行了分类。其中可微数据结构和端对端学习将在后面几部分的报告中终点展开介绍。

第二部分，报告系统详述了可微数据结构（Differentiable data-structure）的概念、原理，以及个关键部分的分类，通过举例全面描述了可微数据结构的特征和处理方式。

第三部分，报告从理论和实践方面，阐述了NLP中一个基本问题“学习范式”的观察和思考。首先吕博士从多样化而互通有无的各类学习范式中出发，归纳对比其特征，然后重点介绍端对端学习（End-to-end learning）范式和其实践情况，最后提出对于一类不可微数据结构的处理方式，围绕加强学习（Reinforcement learning, RL）等范式及其有策略地融合，提出未来可能发展和优化的方向。

在数字图像处理中，如模式识别、遥感数据分析等应用领域，有监督分类、非监督分类、专家系统分类、神经网络、遗传算法、自动向量机等针对像素数据分类的方法，这些计算方法原理与NLP中对（机器）学习范式的原理异曲同工。如张江老师在AI学园首讲所介绍，这些机器学习方法与人类学习过程相仿相通，互相联系。在文字处理、图像处理等信息处理技术领域，结合仿生学作更深层次的关联思考和融合，相信会在AI领域有更大突破。

最后一部分，吕正东博士分享了他关于神经符号主义（Neural Symbolism）的一些思考。这部分首先提出一条重要的理念：联结主义（Connectionism）和符号主义（Symbolism）的嫁接。然后结合实际问题给出了可能的解决方式，并以分布式和符号式执行过程的耦合联动为例作了具体说明。

在报告结尾，报告人将其全部内容提炼为4张幻灯片作为要义总结。

聆听和整理报告，能够感受到报告人吕正东博士长期在AI学界和业界相当扎实且敏锐的知识积累和洞察，所述内容纲举目张、融会贯通。值得一提，报告传递信息量丰富而不松散，建立在一种高度对称化逻辑之上，所述内容平衡、严谨，我想这与报告人经过严格的科学训练以及在学术界广泛交流有关。

我个人在求学和科研途中，曾与同行及图情、出版界前辈，共同探讨过知识自动化的主题。在共同编写的《学术入门五十问》书稿中系统归纳了包括“对称写作”、“层级检索”和“变速阅读”等有助开发高效信息交流模式的方法，其思想原理与吕博士该讲座中的很多理念不谋而合。AI领域迅速增长的NLP技术让我们进一步看到知识自动化想法落实的可能——希望伴随深度学习范式与NLP实践的互动发展，解放相当一部分人脑信息处理负担的未来早日到来。