关键词:计算语言学,语义空间,机器学习,词语嵌入,多语言对比



论文题目:Local similarity and global variability characterize the semantic space of human languages
期刊来源:PNAS
论文地址:https://www.pnas.org/doi/10.1073/pnas.2300986120

世界上各种语言的意义是如何变化的?学者们认识到,从自然、颜色到亲缘关系等特定领域内存在着巨大的差异。例如有的语言中对于特定颜色的区分不够细,不同语言中代表道德的词汇含义存在差异。世界上各种语言间有限的语义一致性表明了翻译和跨文化交流的局限性。要解决这个问题,就需要从系统层面来比较多种语言的语义结构。

大语言模型的出现使我们能够采用系统级方法,通过比较不同语义领域的词汇组织来直接描述这种变异性。该研究使用机器学习,分别针对多种语言文本,在密集、连续、高维的空间构建词语嵌入,基于上下文来描述单词的含义。使用以下两种语料库分别进行模型训练,1)由 35 种语言的维基百科文章组成的大型母语文本语料库;2)由来自相同母语国家的 38500 名英语作为外语(托福)考试的考生撰写的论文,这些论文按语义域分类。

通过这些表征,研究发现:1)不同语言的意义在语义域内表现出较低的可变性,而在语义域之间则表现出更大的可变性:与抽象含义相比,具体含义在不同语言之间的差异较小。

图1:不同语言间词语的抽象程度与语义相似性的关系

2)语义差异性会随着地理、环境和文化距离的变化而变化。具体词义在不同语言之间的可变性要小于其相似性,但所有词义都会随距离的变化而变化。

图2:词嵌入空间的局部聚类存在局部相似性与全局差异性,跨语言语义聚簇的语义距离与语言对应区域的地理距离正相关


通过不同国家托福写作的文本对比,可以找出那些在各个国家中都会出现的词汇间语义关系(图3A),也存在只在特定国家的考生中出现的语义关系(图3B)。通过这种方式,展现说话者语义空间的结构如何影响他们在认知上突出的比较,语义空间的差异是由他们的母语所决定的,用希腊语“思考”的人在认知上,及在语言中遵循的语义联想与用阿拉伯语、波斯语或汉语“思考”的人不同。这表明即使是成功的双语交际者在写作英语时,也很可能在母语联想的驱动下进行思考。

图3:不同国家的托福考生的写作文本构建的词语语义空间的相关性分组展示

该研究同时研究局部相似性和全局差异性,并提供了关于支配不同语言语义空间变化的一般原则描述。研究指出,联想和类比将语言中的意义相互联系起来,在不同的语言中提出了可预见的不同直觉,混淆了复杂思想的传播。例如,对于一种语言的使用者来说,家庭和食物的概念可能会更紧密地联系在一起,这是环境容量、资源丰富程度和家庭聚会的持续传统所决定的。

这些发现对语言教育、跨文化交际和翻译具有重大影响。直译之所以不可能,不是因为参照对象不确定,而是因为联想、隐喻和叙述以不同的、可预测的方式将一种语言与另一种语言的意义联系起来。而语言背景不同的两个人之间的交流必然会导致一些语义损失和扭曲。对于语言学习,该研究的发现意味着流利地使用一种语言,需要用该语言 “思考”,产生该语言文化所熟悉的全局联想。




编译|郭瑞东

计算社会科学读书会第二季



详情请见:

数据与计算前沿方法整合:计算社会科学读书会第二季启动



推荐阅读

1. Sci. Adv.速递:语义网络分析自动识别阴谋论
2. Nat. Commn.速递:位于语义网络中心的事件更可能被记住
3. Nat. Hum. Behav. 速递:语义投影从词嵌入中还原丰富的语境知识
4. 张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程
5加入集智学园VIP,一次性获取集智平台所有内容资源
6. 加入集智,一起复杂!


点击“阅读原文”,报名读书会