大语言模型与文本驱动的社会科学方法 | 周六直播·AI×传播读书会

导语
在AI快速发展的当下,AI不仅深刻影响着信息传播的方式,也为传播学研究带来了全新视角和方法。基于此,集智俱乐部联合北京师范大学许小可教授、浙江大学张子柯教授、南京大学王成军教授、深圳大学廖好副教授共同发起“AI×传播”读书会,从计算叙事、智能传播、人机传播与传播仿真四个板块向来共同探索AI与传播的前沿交叉,来深度理解传播机制和传播生态。
9月13日(周六)10:00将开启读书会第四期,由南京大学新闻传播学院2024级传播学学硕陈敏扬、香港城市大学传播学博士陈志聪共同分享“大语言模型与文本驱动的社会科学方法”主题,本次分享聚焦于大语言模型与文本方法在社会科学研究中的新兴价值。大语言模型让质性研究摆脱“慢、主观、难复现”的痛点,自动生成稳定的分析结果;而“文本作为方法”让我们把海量文本当作社会的窗口,通过语义、叙事、情感分析,看清权力关系与文化流动。两者结合,让研究者能用新工具发现社会规律,打开数字时代的全新研究视角。

分享简介
分享简介
分享一:使用大语言模型做定性研究
大语言模型(Large Language Models, LLMs)的发展为人文社会科学中的质性研究带来了前所未有的机遇。尽管扎根理论、主题分析等质性方法在揭示复杂社会现象与文本意义方面具有独特优势,但传统质性研究依然面临诸多挑战,例如:海量文本资料限制了分析的效率与广度,研究结果易受到分析者主观性的影响,且难以实现结果的可重复性与一致性。针对这些局限,大语言模型通过自动化编码、生成稳定一致的分析输出,以及强大的文本处理能力,正逐步成为质性研究的有力补充。近年来,关于大语言模型在质性研究中应用的探索不断深化,涵盖了模型辅助编码与主题建模、质性分析工具的探索、系统性方法论反思以及伦理层面的批判性讨论。这些进展不仅拓展了质性研究者的工具箱,也促使我们重新审视传统质性方法的边界与可能性。
分享大纲:
-
大语言模型在定性研究中的应用现状概览
-
大语言模型作为定性研究工具:文本编码、主题建模和定性分析
主讲人:

陈敏扬,南京大学新闻传播学院2024级传播学学硕,南京大学计算传播学实验中心成员。研究方向:计算叙事。
分享二:文本作为方法
在数字社会中,文本不仅是信息传播的媒介,更构成了理解社会结构、文化变迁与集体认知的重要数据资源。“文本作为方法”的研究视角,强调文本作为社会现象的观察窗口,能够揭示语言实践中蕴含的权力关系、身份建构与知识流动等深层机制。从政治演讲、社交媒体到新闻报道,不同类型的大规模文本数据为社会科学研究带来了前所未有的观察尺度与分析可能。借助自然语言处理与机器学习等技术,研究者能够对语义网络、叙事结构与情感取向等语言特征进行系统建模,进而提出具有理论解释力的实证发现。文本分析正逐步成为连接宏观理论与微观数据的关键方法论支柱,为理解数字社会中的意义生产与社会变迁开辟了新的研究路径。
分享大纲:
-
文本数据与社会理论的互动:关注文本数据如何为社会科学理论提供实证支撑,反过来理论又如何指导文本分析框架,推动从“文本解读”走向“社会解释”。
-
文本的社会建构功能:探讨文本如何在特定语境中建构意义、塑造身份、维系权力关系,强调文本不仅是信息的反映,更是社会实践的一部分。
-
多层次文本分析方法的融合:结合话语分析、叙事分析与计算文本分析等方法,从微观语言使用到宏观语义结构,实现跨尺度、跨范式的研究路径。
主讲人:

陈志聪,香港城市大学传播学博士,研究方向包括计算传播学、数字媒体、匿名技术以及文化变迁等。在《新闻与传播研究》、New Media & Society、American Psychologist 等国内外一流期刊发表多篇论文。
阅读清单
阅读清单
使用大语言模型做定性研究

-
Barros, C. F., Azevedo, B. B., Neto, V. V. G., Kassab, M., Kalinowski, M., Do Nascimento, H. A. D., & Bandeira, M. C. (2025, May). Large Language Model for Qualitative Research: A Systematic Mapping Study. In 2025 IEEE/ACM International Workshop on Methodological Issues with Empirical Studies in Software Engineering (WSESE) (pp. 48-55). IEEE.
文章对大型语言模型在定性研究中应用的相关文献进行了系统性梳理,探究了其应用场景、配置方式、方法论及评估指标。
-
Tai, R. H., Bentley, L. R., Xia, X., Sitt, J. M., Fankhauser, S. C., Chicas-Mosier, A. M., & Monteith, B. G. (2024). An examination of the use of large language models to aid analysis of textual data. International Journal of Qualitative Methods, 23, 16094069241231168.
文章提出了一种利用大型语言模型支持定性研究中传统演绎式编码的方法,并通过多次迭代分析评估其可靠性。
-
Zhang, H., Wu, C., Xie, J., Rubino, F., Graver, S., Kim, C., … & Cai, J. (2024). When qualitative research meets large language model: Exploring the potential of QualiGPT as a tool for qualitative coding. arXiv preprint arXiv:2407.14925.
文章介绍了QualiGPT 工具,该工具旨在解决使用ChatGPT进行定性分析时面临的挑战;文章证明 QualiGPT 显著优化了定性分析流程
-
Than, N., Fan, L., Law, T., Nelson, L. K., & McCall, L. (2025). Updating “The Future of Coding”: Qualitative Coding with Generative Large Language Models. Sociological Methods & Research, 54(3), 849-888.
文章测试了生成式大型语言模型复制和增强传统定性编码的能力,提出了一套使用生成式大型语言模型进行定性编码的工作流程。
-
Chew, R., Bollenbacher, J., Wenger, M., Speer, J., & Kim, A. (2023). LLM-assisted content analysis: Using large language models to support deductive coding. arXiv preprint arXiv:2306.14924.
文章探索了LLM辅助演绎编码的方法——LLM辅助内容分析(LACA),并使用LACA对4个公开数据集进行了实证基准测试,发现GPT-3.5通常可以以与人类编码人员相当的一致性水平执行演绎编码。
-
Kapoor, S., Gil, A., Bhaduri, S., Mittal, A., & Mulkar, R. (2024). Qualitative insights tool (qualit): Llm enhanced topic modeling. arXiv preprint arXiv:2409.15626.
文章提出了一种新颖的主题建模方法——定性洞察工具(QualIT),将大型语言模型(LLM)与现有的基于聚类的主题建模方法集成在一起。
-
高虒源,唐啸 & 付帅泽.(2025).基于生成式大语言模型的社会科学定性分析——研究方法与应用示例.社会发展研究,12(01),62-84+243.
文章使用生成式大语言模型对扎根理论、民族志、口述史、案例研究四类定性研究的文本分析进行复现,提供应用示例并对复现效果进行呈现、验证与提炼总结。
文本作为方法

文本数据与社会理论的互动
-
Grimmer, J., Roberts, M. E., & Stewart, B. M. (2022). Text as Data: A New Framework for Machine Learning and the Social Sciences. Princeton University Press.
本书提出“文本即数据”的研究范式,将文本表示、测量、预测与因果推断结合机器学习方法,为社会科学提供系统设计路线 。
-
Shiller, R. J. (2019). Narrative economics: How stories go viral and drive major economic events. Princeton University Press.
本书提出“叙事经济学”(Narrative Economics)概念,强调经济行为不仅受数据与理性决策驱动,也深受广泛传播的社会叙事影响,为将文本数据引入经济学分析提供了理论基础。
-
Krippendorff, K. (2018). Content Analysis: An Introduction to Its Methodology (4th ed.). Sage Publications.
内容分析领域经典参考,从理论到实践详述了文本如何构建社会意义与符号系统。
文本的社会建构功能
-
Aroyehun, S. T., Simchon, A., Carrella, F., Lasser, J., Lewandowsky, S., & Garcia, D. (2025). Computational analysis of US congressional speeches reveals a shift from evidence to intuition. Nature Human Behaviour, 9(6), 1122–1133. https://doi.org/10.1038/s41562-025-02136-2
通过分析从1879年到2022年约800万篇国会演讲,该研究发现1970年代中期以来议员们使用基于证据语言的频率持续下降,而依赖直觉和情感表达的语言逐渐占上风;这种语言转向与党派极化加剧、收入不平等上升及立法效率下降紧密相关。
-
Esposito, E., Rotesi, T., Saia, A., & Thoenig, M. (2023). Reconciliation Narratives: The Birth of a Nation after the US Civil War. American Economic Review, 113(6), 1461–1504. https://doi.org/10.1257/aer.20210413
利用“电影《一个国家的诞生》”在1910–1920 年代的传播数据,揭示“Lost Cause”叙事如何在种族与民族融合中发挥双重作用 。
-
Best, R. K., & Arseniev Koehler, A. (2023). The stigma of diseases: Unequal burden, uneven decline. American Sociological Review, 88(5), 938–969. https://doi.org/10.1177/00031224231197436
本研究通过对 1980–2018 年间 4.7 万篇新闻语料的词嵌入分析,揭示行为健康及可预防疾病激发“道德偏见”意象,而传染病则更易与“厌恶”情绪相关联,且只有慢性身体疾病的污名显著下降
-
Hamamura, T., Chen, Z., Chan, C. S., Chen, S. X., & Kobayashi, T. (2021). Individualism With Chinese Characteristics? Discerning cultural shifts in China using 50 years of printed texts. American Psychologist, 76(6), 888–903. https://doi.org/10.1037/amp0000840
本文运用 NLP 和词向量技术分析 1950–1999 年中国印刷文本,指出中国文化中的个人主义并未随着现代化显著上升,集体主义仍具持续性
-
DeFranza, D., Mishra, H., & Mishra, A. (2020). How language shapes prejudice against women: An examination across 45 world languages. Journal of Personality and Social Psychology: Attitudes and Social Cognition, 119(1), 7–22. https://doi.org/10.1037/pspa0000188
本研究利用 Wikipedia 与 Common Crawl 45 种语言的大规模语料数据,发现语法性别化语言中对女性的偏见更为普遍,并揭示这种偏见在“温暖”和“能力”语义维度上的差异性表达
-
Garg, N., Schiebinger, L., Jurafsky, D., & Zou, J. (2018). Word embeddings quantify 100 years of gender and ethnic stereotypes. Proceedings of the National Academy of Sciences, 115(16), E3635–E3644. https://doi.org/10.1073/pnas.1720347115
词嵌入技术定量分析过去一个世纪英语语料中的性别和种族刻板印象演变。
多层次文本分析方法的融合
-
Jurafsky, D., & Martin, J. H. (2023). Speech and Language Processing (3rd ed. draft). Retrieved from https://web.stanford.edu/~jurafsky/slp3/
语言处理领域权威草稿教材,涵盖核心 NLP 技术及其在文本分析中的多尺度应用。
-
Grand, G., Blank, I. A., Pereira, F., & Fedorenko, E. (2022). Semantic projection recovers rich human knowledge of multiple object features. Nature Human Behaviour, 6, 593–605.
语义投影技术能够从词向量中恢复人类对物体特征的复杂认知知识。
-
Kozlowski, A. C., Taddy, M., & Evans, J. A. (2019). The geometry of culture: Analyzing the meanings of class through word embeddings. American Sociological Review, 84(5), 905–949.
提出“文化几何”方法,通过词向量揭示阶层语义结构的空间布局。
参与方式
参与方式
参与时间:2025年9月13日(周六)10:00-12:00 北京时间
报名加入社群交流

扫码报名(可开发票)
报名链接:https://pattern.swarma.org/study_group/67?from=wechat
扫码参与AI×传播读书会社区,加入群聊,获取系列读书会回看权限,加入AI×传播社区,与社区的一线科研工作者沟通交流,共同探索AI与传播的前沿交叉,来深度理解传播机制和传播生态。
视频号直播预约:

AI×传播读书会
在AI快速发展的当下,AI不仅深刻影响着信息传播的方式,也为传播学研究带来了全新视角和方法。基于此,集智俱乐部联合北京师范大学许小可教授、浙江大学张子柯教授、南京大学王成军教授、深圳大学廖好副教授共同发起“AI×传播”读书会,从计算叙事、智能传播、人机传播与传播仿真四个板块向来共同探索AI与传播的前沿交叉,来深度理解传播机制和传播生态。读书会自8月23日起,每周六10:00-12:00举行,预计持续12周。
我们将探讨如下核心问题:
-
在人机共同参与的叙事生态中,叙事的生产、传播与接受机制发生了哪些根本性变化?
-
在复杂社交网络环境中,如何构建智能化的信息可信度评估与虚假信息防控机制?
-
如何运用深度学习和强化学习等智能方法,实现从个体到群体的精准化传播影响力最大化?
-
如何构建适应人机混合传播网络特征的新型研究范式,以有效解析机器行为规律和人机协同传播机制?
-
如何构建基于大语言模型的认知驱动型智能体仿真系统?





