Nat. Hum. Behav. 速递：语义投影从词嵌入中还原丰富的语境知识

摘要

关于词义的知识如何在心理词典（mental lexicon）中表示？当前的计算模型从词汇共现模式中推断词义，学习如何将单词表示为多维空间中的向量，使得在更相似语境中使用（即语义相关性更高）的单词之向量更靠近。然而，词间接近度仅捕获整体相关性，人类判断却高度依赖于语境。例如，海豚和短吻鳄体型相似，但危险性不同。近日发表在 Nature Human Behaviour 上的最新研究，使用一种领域通用方法从词嵌入（word embeddings，即词向量）中提取与语境相关的关系：将词向量“语义投影”到表示诸如大小（连接词“小”和“大”的线）或危险（“安全”到“危险”）等特征的线上，类似于“心理量表”。该方法还原了人类对各种对象类别和属性的判断。因此，词嵌入的几何形状明确地代表了丰富的语境相关的世界知识。

研究领域：计算语言学，心理语言学

徐恩峤 | 作者

邓一雪 | 编辑

论文题目：Semantic projection recovers rich human knowledge of multiple object features from word embeddings

论文链接：https://www.nature.com/articles/s41562-022-01316-8

1. 语义投影作为特征标尺

一组词向量能够蕴含丰富的语境信息。如果两个词语在空间上的位置更加接近，则能够说明他们在整个语料中更倾向于出现在类似的语境当中。但是有一个问题，当我们在说两个词语相似的时候，我们实际上在说什么？由于现实世界事物的丰富性，一个对象难免会有多个维度的不同特征。例如，海豚与短吻鳄在体型上相近，但是危险性却大有不同。本文作者创新性地设计了一个称之为语义投影（semantic projection）的方法，从词向量中挖掘多个维度的信息。

图1中穿过小（SMALL）和大（LARGE）两个词的红线代表了一把标尺。蓝点所代表的动物越靠近SMALL一侧，则更可能具有小的体型；更靠近LARGE一侧，则反之。可以看到SMALL一侧有比较多的诸如蚁（Ant）、鼠（Mouse）、蜜蜂（Bee）等动物；而LARGE一侧则有鲸鱼（Whale）、象（Elephant）等动物——这说明语义投影的方法能够比较好地捕捉到人类世界知识中这些动物的大小关系。

图1. 用PCA降维至3D的词向量（源于GloVe方法生成的300D词向量）所展示语义投影方法，以动物类别的尺寸特征为例。红点为一对特征词（SMALL和LARGE），相连成红线即为特征标尺；蓝点为不同的动物，引到红线上的淡蓝线为正交投影线。

2. 语义投影还原多样世界知识

进一步的研究发现，语义投影方法能够在特征或者类别发生变动时，较好预测人类关于某些特征的判断。见图2a红点标出的海豚（Dolphin）与虎（Tiger）这两种动物，直觉告诉我们：虎远远比海豚危险，但它们大小相似，而海豚因生活在水中而有更高的湿度——这与语义投影的预测相符。图2b与图2a类似，但是发生变化的是类别，这里不再赘述。图中其他散点也显示，从词向量中还原出的知识与人类判断是正相关的。

图2. 语义投影预测人类判断的案例，每个组合均有25个参与者提供人类评分。a 固定类别（动物），变动特征（危险性、尺寸、湿度）；b 变动类别（动物城市，文物，神话生物），固定特征（危险性）。

研究者随后在更广泛的类别与特征组合上展示了结果的有效性。图3展示了「9种类别」x「17种特征」组合的预测情况。以第七列位置（Location，标尺为indoors-outdoors，即室内-户外）为例，运动（Sports）与位置显著相关（室内、户外运动），而职业（Professions）与位置的关联相对更弱，这大体符合人类关于位置的知识；而对于最后一行天气（Weather）来说，危险（Danger）与否和温度（Temperature）、湿度（Wetness）确实都是人类关心的，均有显著关联。读者可以尝试自行验证其它的组合，其中大部分的组合均能较好符合人类直觉。

图3. 语义投影预测多种类别与特征上的人类评分效果。图中颜色对应Pearson相关性（灰色是未做实验的组合），行、列分别代表类别与特征，行、列的中位数分别在最后一列与最后一行标出。统计显著的拟合结果格子被粗框围绕。

3. 还原丰富词向量信息的新方法

语义投影方法的使用证明，词向量中实际上确实明确地编码了比我们原先想象更加丰富的语境知识，目前我们从其中挖掘到的信息可能只触及其表面，因此后续可以基于此思路开发更优的模型、挖掘更多的信息。

另外，除了有优异的还原效果，与先前从自然语言使用模式中提取语义知识的尝试相比，这种方法需要的人工监督和/或语料库注释要少得多，因此从应用上来说，该方法有望为各种语料灵活地恢复各种语义特征，甚至能够把不同学科的语料转换为知识含量丰富、更加易用的数据。

论文 Abstract

How is knowledge about word meaning represented in the mental lexicon? Current computational models infer word meanings from lexical co-occurrence patterns. They learn to represent words as vectors in a multidimensional space, wherein words that are used in more similar linguistic contexts—that is, are more semantically related—are located closer together. However, whereas inter-word proximity captures only overall relatedness, human judgements are highly context dependent. For example, dolphins and alligators are similar in size but differ in dangerousness. Here, we use a domain-general method to extract context-dependent relationships from word embeddings: ‘semantic projection’ of word-vectors onto lines that represent features such as size (the line connecting the words ‘small’ and ‘big’) or danger (‘safe’ to ‘dangerous’), analogous to ‘mental scales’. This method recovers human judgements across various object categories and properties. Thus, the geometry of word embeddings explicitly represents a wealth of context-dependent world knowledge.

复杂科学最新论文

集智斑图顶刊论文速递栏目上线以来，持续收录来自Nature、Science等顶刊的最新论文，追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能，每周通过微信服务号「集智斑图」推送论文信息。扫描下方二维码即可一键订阅：

推荐阅读

点击“阅读原文”，追踪复杂科学顶刊论文