导语


计算社会科学读书会第二季第八期读书会,我们邀请到杜伦大学计算机系博士肖程昊,围绕效率与趣味两个角度,介绍基于大语言模型的高效的文本挖掘方法和案例,讲解大语言模型如何以两种不同的范式被结合在有趣的语言概念研究中。本次分享旨在不仅提供高效、简易的自然语言处理研究工具,而且提供有趣、巧妙的研究思路, 希望能对计算社会科学其他研究提供一定的启发性和转移性。本期读书会时间为:8月20日(周六)晚上20:00 – 22:00,直播报名入口见后文。


计算社会科学读书会第二季由清华大学罗家德教授领衔,卡内基梅隆大学、密歇根大学、清华大学、匹兹堡大学的多位博士生联合发起,自2022年6月18日开始,持续10-12周。本季读书将聚焦讨论Graph、Embedding、NLP、Modeling、Data collection等方法及其与社会科学问题的结合,并针对性讨论预测性与解释性、新冠疫情研究等课题。读书会详情及参与方式见文末,欢迎从事相关研究或对计算社会科学感兴趣的朋友报名参加!






本期分享

与计算社会科学读书会之间的关系




预训练语言模型因其在下游任务优秀的效果,逐渐在社会科学研究中受到重视。本期通过效率与趣味两个角度,讲解(1)基于大语言模型的高效的文本挖掘方法和案例,(2)大语言模型如何以两种不同的范式被结合在有趣的语言概念研究中。本期分享旨在不仅提供高效、简易的自然语言处理研究工具,而且提供有趣、巧妙的研究思路, 希望能对计算社会科学其他研究提供一定的启发性和转移性。




主要涉及到的知识概念




预训练语言模型 (Pre-trained Language Models, PLMs)

句子表示/句子嵌入 (Sentence Representation/Sentence Embedding)





分享简介




本次分享第一部分承接第三第四期embedding的内容,介绍句子表示方法以及基于此的高效文本挖掘框架;第二部分承接第七期的内容,以两篇有趣的研究为案例,介绍两种不需要人工标注的利用NLP进行概念研究的范式。





分享大纲




1. Embedding续谈

a.大模型的缺陷与句子表示方法
b. 基于句子表示的高效文本挖掘方法&案例

2. 用NLP研究有趣的语言学概念:案例中的两种范式

a. 案例一:用NLP研究幽默
b. 案例二:用NLP研究俚语





主讲人简介


肖程昊,杜伦大学计算机系博一在读。研究方向为自然语言处理,研究围绕信息获取的效率与公平两个维度进行,致力于NLP for social good。现阶段主要关注的问题是(1)构建高效、轻量级的基于句子表示的信息获取框架(2)使用语言模型作为外部约束,帮助不同社会阶层的用户逃离信息茧房。他的个人主页是:https://haii.webspace.durham.ac.uk/chenghao-xiao/





参考文献




本次解读的文章
1. Xiao, C., Shi, L., Cristea, A., Li, Z. and Pan, Z., 2022. Fine-grained Main Ideas Extraction and Clustering of Online Course Reviews. In International Conference on Artificial Intelligence in Education (pp. 294-306). Springer, Cham.
2. Yang, Z., Hooshmand, S. and Hirschberg, J., 2021, November. CHoRaL: Collecting humor reaction labels from millions of social media users. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (pp. 4429-4435).
3. Keidar, D., Opedal, A., Jin, Z. and Sachan, M., 2022, May. Slangvolution: A Causal Analysis of Semantic Change and Frequency Dynamics in Slang. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 1422-1442).

参考的文章

1. Reimers, N. and Gurevych, I., 2019, November. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) (pp. 3982-3992).

2. Gao, T., Yao, X. and Chen, D., 2021, November. SimCSE: Simple Contrastive Learning of Sentence Embeddings. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (pp. 6894-6910).






直播信息




直播时间:
2022年8月20日(周六)晚上20:00 – 22:00

参与方式:
  • 集智俱乐部 B 站账号免费直播,扫码可预约:

扫码预约本次直播

  • 若需要观看视频回放,文末扫码付费参加计算社会科学读书会第二季可加入腾讯会议,可提问交流、加入群聊、获取视频回放及更多学习资料,成为计算社会科学社区种子用户,与450余名计算社会科学的一线科研工作者沟通交流,共同推动计算社会科学社区的发展。



计算社会科学读书会第二季招募中


计算社会科学读书会第二季由清华大学罗家德教授领衔,卡内基梅隆大学、密歇根大学、清华大学、匹兹堡大学的多位博士生联合发起,自2022年6月18日开始,持续10-12周。本季读书将聚焦讨论Graph、Embedding、NLP、Modeling、Data collection等方法及其与社会科学问题的结合,并针对性讨论预测性与解释性、新冠疫情研究等课题。读书会详情及参与方式见文末,欢迎从事相关研究或对计算社会科学感兴趣的朋友参与。



点击“阅读原文”,报名直播