语言中隐藏的几何 | 张江
去年上映的影片《降临》讲述了一个有关语言的故事。为了帮助地球人,外星人尝试教会地球人类他们自己的语言。然而,要命的是,由于人类固有的语言是一种一维的线性化结构,这就导致了我们根深蒂固的线性流逝的时间观念,于是绝大多数人都无法理解外星人那稀奇古怪的非线性语言,如下图:
然而,故事的主人公,语言学家路易斯却由于长期的沉浸,学会了外星人的语言,更令她惊奇的是,她居然具备了“看见未来”的能力。原来,掌握了外星人的非线性语言就可以打破人类固化的线性时间观点,从而看到遥远的未来。
当然,这仅仅是一个科幻故事,但它告诉我们,无论是中文、英语、法语还是西班牙语,所有这些人类语言都具备的共同特征就是它们都是一种线性的序列结构,随着时间的流逝,我们让这些符号相互串联形成了一条条流动。
然而,我们近期的一个科研结果却展示,人类语言的背后实际上是具有非序列化的几何结构的。采用我们提出来的开放流网络方法,我们便可以计算出任意两个单词之间的距离,并根据这个距离找到一篇文字背后的几何空间。
我们的做法是这样的:首先,我们可以将一个句子看作是一条流动。当我们从左到右阅读一句话的时候,我们注意力的焦点就可以在各个单词之间不断跳跃,从而类似于水滴一样形成一条流动轨迹。那么,整篇文章就对应了多条流动。然后,我们将这些流汇聚在一起就可以形成一张网,用它来把握整个文章的流动结构。最后,我们可以在这张网络上定义一种距离:流距离,根据这个距离就可以将其嵌入到高维几何空间之中。
例如,考虑一篇文章有下面这三句话:
今日春光明媚
明日在今日之后
春光无限好
这里面有如下几个单词:今日、春光、明媚、明日、在、之后、无限、好,每句话可以转化为一条流动:
今日->春光->明媚
明日->在->今日->之后
春光->无限->好
于是,我们就可以利用这三句话构造出一个开放流网络,如下图所示:
其中每条连边上的流量都是1,source、sink是两个人为添加的节点,它可以使得每一个节点的流入等于它的流出。
有了这样的流网络之后,我们就可以针对任意给定的节点对(除去源和汇)来定义一个流距离:一个随机游走粒子从任意节点i出发沿着有向连边走到j,再从j走回来到i的平均网络路径长度。当这个网络强连通的时候,我们就可以计算出来任意两个节点对之间的距离。
我们知道,距离实际上是和几何空间(严格来讲,是度规空间)联系在一起的。因此,当我们给定了任意两个节点之间的流距离,我们实际上就可以得到一个几何空间,使得这个几何空间刚好能够装下所有的节点,并让节点对之间的几何距离刚好或者足够接近于它们彼此之间的流距离。于是,每一个节点就会获得一个独一无二的空间坐标。具体来讲,有很多的现成算法帮我们完成这件事,例如弹簧算法或者MDS算法等。
有意思的是,采用我们这种流网络、流距离的方法得到的几何空间,以及每个节点的坐标,是跟著名的词向量算法Word2Vec的计算结果近似一致的。如下图,我们展示了在一个小型的网络Karate Club上面的计算结果:
其中方块是采用我们的方法得到的节点空间坐标,而圆圈是采用Word2Vec方法得到的节点坐标,二者几乎重合。下图展示了,在两种方法下,所有节点对的距离之间的关系:
我们在Karate Club以及Airline两种网络上在两种方法上的计算结果。横坐标是任意节点对的流距离,纵坐标是相应节点对之间的Word2Vec坐标之间的距离。它们彼此之间高度相关,并且相关性在多个网络上都高达80%以上。
这种相关性意味着什么?这意味着我们架起了网络分析、几何空间以及深度学习中词向量方法彼此之间的联系。
首先,Word2Vec方法得到的嵌入向量不仅具有相似性含义,而且具有度规含义。比如我们可以通过到所有其它节点或单词之间的平均距离来度量这个单词或节点的重要性程度,这种度量是在以前的研究中未曾见到的。其次,用我们的方法得到的每个节点/单词的坐标也可以作为节点/单词的特征去做NLP中的任务,例如词性标注、机器翻译、阅读理解等。而我们这种方法的好处就在于,它避免了Word2Vec算法中一系列超参数的选取,也远比计算神经网络要简单得多。
更有意思的是,既然我们找到了自然语言背后的几何关系,那么,我们原则上就可以运用几何学中的方法和手段来分析语言了,这也许能够给我们提供完全不一样的视角。
参考文献:
推荐阅读
打包组课只需499¥
可开发票
团购享优惠
集智QQ群|292641157
商务合作|zhangqian@swarma.org
投稿转载|wangting@swarma.org
◆ ◆ ◆
搜索公众号:集智俱乐部
加入“没有围墙的研究所”
让苹果砸得更猛烈些吧!
始发于微信公众号: 集智俱乐部