导语


计算社会科学作为一个新兴交叉领域,越来越多地在应对新冠疫情、舆论传播、社会治理、城市发展、组织管理等社会问题和社科议题中发挥作用,大大丰富了我们对社会经济复杂系统的理解。相比于传统社会科学研究,计算社会科学广泛采用了计算范式和复杂系统视角,因而与计算机仿真、大数据、人工智能、统计物理等领域的前沿方法密切结合。为了进一步梳理计算社会科学中的各类模型方法,推动研究创新,集智俱乐部发起了计算社会科学系列读书会。


新一季【计算社会科学读书会】由清华大学罗家德教授领衔,卡内基梅隆大学、密歇根大学、清华大学、匹兹堡大学的多位博士生联合发起,自2022年6月18日开始,持续10-12周。本季读书将聚焦讨论Graph、Embedding、NLP、Modeling、Data collection等方法及其与社会科学问题的结合,并针对性讨论预测性与解释性、新冠疫情研究等课题。读书会详情及参与方式见文末,欢迎从事相关研究或对计算社会科学感兴趣的朋友参与。





一、读书会背景




计算社会科学(Computer Social Science, CSS)是近年来新涌现出的一个学科领域。随着越多越多样和大量的人类行为信息(包括消费记录,社交媒体上的交流,位置和移动信息等)能够被收集和获取,研究人员开始利用这些数据研究人类的行为模式。相比于传统的社会科学研究,计算社会科学依赖更大规模,更精确的人类行为数据,更多采用诸如建模、仿真、神经网络等方法,并基于数学,物理,计算机知识。


尽管对这个领域的设想和定义在十几年前才刚被提出,(Lazer, 2009), 时至今日,这个领域的研究已经取得了长足的进展,在研究的方法和内容上不断更新和扩充,在诸如城市管理,疫情防控,社交媒体的监管等众多方面都显现了极大的应用价值和潜力。


因此,基于计算方法与社会科学的交叉学科,是集智俱乐部一直以来非常关注的领域。通过2021年举办的第一季读书会的密集研讨,集智俱乐部的计算社会科学主题社群,已经聚集200+ 来自海内外的相关学者与硕博,探讨话题涵盖多主体仿真、网络科学、NLP、CV等计算方法,应用领域包括社会学、管理学、心理学、传播学等学科。


集智计算社会科学社区成员背景词云


基于此,本季读书会我们将为大家梳理计算社会科学中常见的数据分析处理问题的方法,并重点介绍以下研究问题的方法:


基于复杂多变的社交网络结构,图结构表示数据在社会计算领域有着广泛的应用,我们将介绍如何用图理解分析数据,如何通过嵌入(embedding)的方法挖掘数据间的隐藏关系。从微观角度研究基于动态模型和仿真建模的方法是研究人类交互行为及动态演化的重要参考渠道。人类行为的复杂性也体现在内容层面,使用神经网络对文本数据进行语义分析及提取在大量学科中有广泛应用。此外,我们还将介绍前沿的数据收集和处理方法,帮助计算社会科学的研究者更好地了解和利用不同类型的数据。本季读书会还将包括两个特别专题,我们将会探讨预测性和解释性结合的研究、计算社会科学在此次COVID-19疫情中的应用和相关研究。





二、读书会主题概览




1. 用图结构表示数据和图的可视化
2. 嵌入(embedding) 方法和隐藏的关系空间

3. 动态模型和仿真方法

  • 建模方法在社会性学习和群体智能的应用
  • 建模方法在信息、病毒的传播等领域的应用

4. 大规模文本及语义分析及其在不同学科的应用(自然语言处理)
5. 大规模数据的获取和处理方法
  • 通过计算的方法扩大数据集、提升数据质量
  • 多种数据收集的平台和方法

6. 大数据整合结构化数据(调查和档案资料)
专题一:预测性和解释性结合的研究
专题二:利用移动数据研究COVID-19的传播和防控
专题对应文献列表见后文





三、发起人介绍




  • 罗家德

罗家德,清华大学社科学院社会科学院与公共管理学院合聘教授、博导, 清华大学社会网络研究中心主任 ,清华大学计算社会科学与国家治理实验室社会学组PI ,Journal of Social Computing主编。

研究领域:圈子理论研究、自组织研究、社区营造研究、组织社会资本研究、外包体系治理问题、高科技产业集群、组织设计与交易成本分析、经济社会学、社会网络理论、社会网络分析、网络动态学与仿真模型。

  • Andrew Bo

Andrew Bo,目前在卡内基梅隆大学做计算社会科学的研究。

主要的研究方向是社交媒体上的用户行为分析,根据用户在社交网络上的交流数据构建用户在在线社区中的社交网络,并研究用户在社交网络中的位置和用户在社群中的社交地位,行为的关系。

  • 胡乔

胡乔,毕业于东南大学,集智学园算法工程师。

主要工作和研究方向为复杂系统相关的文献挖掘,科学学和知识图谱,以及多主体模拟等领域,在文献挖掘领域著有若干专利和软著。当前的工作侧重于复杂网络的双曲嵌入和计算语言学。

  • 高馨
高馨,清华大学社会学系博士生在读,研究方向为计算社会学,社会网络和组织行为研究,主要研究内容为使用大数据与结构化数据的结合,进行以理论导引的社会计算领域的探索性和验证性研究,主要研究主题包括中国人的人脉研究、组织行为、组织绩效以及团队创新研究。目前已发表论文于《社会学研究》、《管理科学学报》、《Journal of Social Computing》、《Journal of Air Transport Management》等期刊。

  • 林意灵

林意灵,匹兹堡大学博士生在读,在信息科学系做科学学的研究。
主要的研究方向是使用数据科学,网络科学的方法去衡量科学与科技中的创新与迭代。

  • 裴嘉欣

裴嘉欣,密歇根大学安娜堡分校信息科学博士在读,研究方向为计算社会科学和自然语言处理,致力于构建新的自然语言处理模型来分析大规模人类行为,目前主要关注人际传播和科学传播,相关成果发表于ACL, EMNLP, WWW等会议,他的主页链接为: https://jiaxin-pei.github.io/

  • 邱慧莲

邱慧莲,美国卡内基梅隆大学计算机学院的博士研究生。曾获2019年International Conference on Software Engineering的杰出论文奖。获普林斯顿大学的计算机硕士学位,以及布朗大学的计算机和东亚研究双学士学位。

研究方向:社会计算,开源软件程序员性别多样性。




四、报名参与读书会




本读书会适合参与的对象

  • 对「计算社会科学」等交叉学科有浓厚兴趣的科研工作者;

  • 能阅读英文文献,并对计算科学和社会科学的交叉学科充满激情,对世界的本质充满好奇的探索者;

  • 欢迎基于读书会所列文本和文献的具体探讨,提供适合的文献和主题的朋友;

本读书会谢绝参与的对象

为确保专业性和讨论话题的聚焦,本读书会谢绝脱离读书会主题的空泛的哲学和思辨式讨论;如果讨论内容不符合要求、多次提醒无效者,会被移除群聊并对未参与部分退费。

运行模式

本季读书会按照内容与暂定框架,贯次展开;

每周进行线上会议,由 1-2 名读书会成员以PPT讲解的形式领读相关论文,与会者可以广泛参与讨论,并提供视频回放

举办时间

从2022年6月18日开始,每周六晚上21:00-23:00 / 每周日早上9:00-11:00(根据分享老师时间调整,会提前通知,结束后有视频回放

参与方式

此次读书会为线上闭门读书会,采用的会议软件是腾讯会议(请提前下载安装)。在扫码完成报名并添加负责人微信后,负责人将您拉入群聊,入群后告知会议号码。

参与费用

为了甄选出真正对计算社会科学研究感兴趣、有相关研究经验的专业人士,保证读书会研讨质量,也为了激励大家一起学习、分享、总结,读书会将采取收费–退费的模式,退还保证金用以激励积极参与学习的成员。

退费规则如下:

读书会保证金共计 299 元/人

  1. 满足如下条件之一者全额退款(本季读书会结束后统一退费):

  • 贡献了一次讲座(1小时以上)内容的(需要提前向运营人员申请并通过试讲);

  • 认真完成集智百科相应的编撰任务,经过集智百科团队审核通过,并达到299积分(详情见https://wiki.swarma.org/index.php/Incentive_method);

  • 认真完成集智斑图相应的路径整理任务,经过路径项目负责人审核,并达到299积分(具体联系运营负责人)。

  1. 满足以下条件之一的不仅可以全额退款,还有额外奖励:

  • 由读书会内容启发,产生了靠谱的新产品创意,并在读书会结束 2 个月内提交了详细的产品策划方案,并通过了集智俱乐部组织的相应考核答辩的;

  • 由读书会内容启发,萌发了科研论文创意,在读书会结束 2 个月内完成初稿,并在最终的论文成果中致谢集智俱乐部的(需要发表在SCI等核心刊物上);

  1. 如果以上任务对你来说有难度,也可以通过参与读书会的运营工作进行退费(仅2名额);

  2. 上述规则的最终解释权归集智俱乐部所有。

报名方式

第一步:扫码填写报名信息

扫码报名

第二步:填写信息后,进入付款流程,提交保证金299元(可开发票)。(符合退费条件后可退费)

第三步:添加负责人微信,拉入对应的读书会讨论群

(我们也会对每次分享的内容进行录制,剪辑后发布在集智学园官网上,供读书会成员回看)





五、限时活动:

组队报名送复杂科学知识卡




为了促进大家的交流和认识,也为了让更多对计算社会科学话题感兴趣的小伙伴加入到我们社区中,我们特别发起了组队报名活动 ,你可以邀请你课题组的导师、师兄师姐、师弟师妹一起加入~

活动规则】

  • 三人及以上一起组队报名,每人均获得『集智俱乐部复杂科学扑克牌』两副

  • 五人及以上一起组队报名,每人均获得『集智俱乐部复杂科学扑克牌』四副

【参与方式】

几人组好队之后,直接报名读书会,由队长告知读书会负责人其他队员名字进行登记。读书会负责人会收集您的具体地址(只收集1个人的地址,建议大家同校组队)后邮寄礼物。

  • 注:本活动中,每人仅限组一次队

【活动时间】

活动时间为:2022年5月21日-2022年9月1日





六、参考文献




1、用图结构表示数据和图的可视化

在计算社会科学的研究中,图(graph)是一个经常被使用的表达记录数据的结构。(计算社会科学的研究总是围绕一系列研究对象和他们之间的关系进行的,而图是能表达对象及其关系的常用数据结构。)图(graph)(或网络)定义某种研究的对象为网络节点,存在某种关系的对象对应的节点互相用边连接,边的存在代表了(特定)关系的存在。通过研究网络的拓扑结构和节点,边在网络中的位置,可以对节点(和其代表的对象)和边(和其代表的关系)的性质进行分析。将数据用图的形式表达,可以借助图拓扑结构的数学性质,和已有的关于图的社会科学理论,发现一些深层次的数据结构和模式。

图结构在研究人与人的交互,产业之间的关系,基因之间的联系等等一系列广泛的课题中均有运用。作为本次读书会的开篇,我们将会探讨如何用图记录并展示数据,和如何基于图数据进行进一步的分析。在用图结构处理数据的过程中,合理简洁的可视化能够极大增加信息的可理解性,为图数据的分析和展示提供了极大的方便。本章将从几个成功的科研案例出发,介绍和探讨如何用图结构表达数据,以及这将会为数据的分析带来哪些便利。同时本章也会介绍图的可视化的技巧和方法,使得参与者能更好地将图结构应用到自己的研究中。
  • Neffke, Frank MH. “The value of complementary co-workers.” Science advances 5.12 (2019): eaax3370. (https://www.science.org/doi/10.1126/sciadv.aax3370)
  • Alabdulkareem, Ahmad, et al. “Unpacking the polarization of workplace skills.” Science advances 4.7 (2018): eaao6030. (https://www.science.org/doi/full/10.1126/sciadv.aao6030)
  • Hidalgo, César A., et al. “The product space conditions the development of nations.” Science 317.5837 (2007): 482-487.(https://www.science.org/doi/abs/10.1126/science.1144581)
  • Miao, Lili, et al. “The latent structure of national scientific development.” arXiv preprint arXiv:2104.10812 (2021). (https://arxiv.org/abs/2104.10812)

2、嵌入 (embedding) 方法和隐藏的关系空间

Embedding techniques(嵌入技术/表示学习)兴起于近年来的深度学习方法,以词向量为里程碑,因具有很强的通用性而发展到几乎万物皆可向量化(x2vec)。

Embedding 的理念是采用不同的空间视角可以发现事物间的不同关系。数据所在的空间是原空间,Embedding后的空间称为隐空间。我们可以将原空间中离散的数据(通常是高维的)embedding为隐空间中连续的数据(通常是低维的),并附带一定的约束条件(如数据点在两个空间中距离保持不变),此时在隐空间下对象之间的关系可能变得更加直观而有启发,我们就可以在新空间中计算和讨论原来的对象,并获得相应的结论。

Embedding的好处是:(1)将通常认为是不可通约或不具有良好运算性质的对象(如抽象特征、语义)等表示为连续向量,从而可以通过数学/几何运算探索这些对象的性质和联系(如相似性,距离等)  (2)与可视化结合,使抽象的事物特征具有直观的表示 ,在(1)和(2)的基础上,还可以充分利用几何/流形的性质实现含义丰富的嵌入,例如基于双曲空间的嵌入表达层级信息等。 

本章节主要论述以词向量为代表的Embedding techniques在CSS领域的一些研究范例,希望这个视角能给大家的研究和工作带来启发。

  • Kozlowski, Austin C., Matt Taddy, and James A. Evans. “The geometry of culture: Analyzing the meanings of class through word embeddings.” American Sociological Review 84.5 (2019): 905-949. (https://journals.sagepub.com/doi/full/10.1177/0003122419877135)
  • Garg, Nikhil, et al. “Word embeddings quantify 100 years of gender and ethnic stereotypes.” Proceedings of the National Academy of Sciences 115.16 (2018): E3635-E3644.(https://www.pnas.org/doi/abs/10.1073/pnas.1720347115)
  • Hofstra, Bas, et al. “The diversity–innovation paradox in science.” Proceedings of the National Academy of Sciences 117.17 (2020): 9284-9291. (https://www.pnas.org/doi/abs/10.1073/pnas.1915378117)
  • Vicinanza, Paul, Amir Goldberg, and Sameer Srivastava. “Quantifying Vision through Language Demonstrates that Visionary Ideas Come from the Periphery.” (2021). (https://osf.io/j24pw/download)
  • Peng, Hao, et al. “Neural embeddings of scholarly periodicals reveal complex disciplinary organizations.” Science Advances 7.17 (2021): eabb9004. (https://www.science.org/doi/10.1126/sciadv.abb9004)
  • Shen, Zhesi, et al. “Node2vec representation for clustering journals and as a possible measure of diversity.” Journal of Data and Information Science 4.2 (2019): 79-92. (https://www.sciendo.com/article/10.2478/jdis-2019-0010)
  • Lin, Yiling, James A. Evans, and Lingfei Wu. “New directions in science emerge from disconnection and discord.” Journal of Informetrics 16.1 (2022): 101234. (https://www.sciencedirect.com/science/article/pii/S175115772100105X)
  • Kwak, Haewoon, et al. “FrameAxis: characterizing microframe bias and intensity with word embedding.” PeerJ Computer Science 7 (2021): e644 (https://peerj.com/articles/cs-644/)
  • Murray, Dakota, et al. “Unsupervised embedding of trajectories captures the latent structure of mobility.” arXiv preprint arXiv:2012.02785 (2020). (https://arxiv.org/abs/2012.02785)
  • Hope, Tom, et al. “Accelerating innovation through analogy mining.” Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2017. (https://dl.acm.org/doi/abs/10.1145/3097983.3098038)
  • An, Jisun, Haewoon Kwak, and Yong-Yeol Ahn. “Semaxis: A lightweight framework to characterize domain-specific word semantics beyond sentiment.” arXiv preprint arXiv:1806.05521 (2018). (https://arxiv.org/abs/1806.05521)
  • Sourati, Jamshid, and James Evans. “Accelerating science with human versus alien artificial intelligences.” arXiv preprint arXiv:2104.05188 (2021). (https://arxiv.org/abs/2104.05188)

3、动态模型和仿真方法

人类的许多行为和现象,比如信息在人群中的传播,对彼此行为的模仿和学习,都不是静态独立的,其背后往往有复杂的动态机制。计算社会科学的研究者通过建模和仿真的方法(simulation),提出了多种不同的计算模型来解释产生这些现象的机制和可能的影响因素。这类研究的关注重点是现象的成因,形成过程,并且通过提出的模型和机制对未来现象的发展给出预测,同时给出可能的干预方案。

这个领域涉猎广泛,包含很多种不同的模型和应用场景,比如研究社会隔离(social segregation)的schelling模型,研究信息传播的独立传播模型(Independent Cascade Model)。在本次读书会中,我们将介绍更加前沿的对动态社会现象和行为的建模仿真研究。除了使用的模型相对更加复杂之外,较新的模型研究会更多才用数据驱动(data-driven)的方法拟合模型的参数和结构,而不仅仅是基于理论的推倒得出模型。

本章的内容主要分为两部分,第一部分我们会介绍建模方法在社会性学习(social learning)和群体智能(collective intelligence)的应用。这个话题主要讨论的是人们是如何通过讨论和彼此学习,使得人们的决策质量,决策表现获得提升的(人们如何通过讨论和彼此学习,获得决策质量的提升)。通过建模的方式理解人们在讨论时选择和谁交流,交流的频率和方式,以及如何根据别人的观点更新自己的意见是本部分的重点。

第二部分则是更广泛地讨论了建模方法在许多不同领域的应用,包括信息在社交媒体上的传播,病毒在人群中的传播等等。这一部分会介绍更加多样的模型和应用领域,也会帮助大家更好地理解如何在不同的领域中采用合适的模型。

Part 1:建模方法在社会性学习和群体智能的应用
  • Foster, Jacob G., Andrey Rzhetsky, and James A. Evans. “Tradition and innovation in scientists’ research strategies.” American Sociological Review 80.5 (2015): 875-908. (https://journals.sagepub.com/doi/abs/10.1177/0003122415601618)
  • Yin, Yian, et al. “Quantifying the dynamics of failure across science, startups and security.” Nature 575.7781 (2019): 190-194. (https://www.nature.com/articles/s41586-019-1725-y)
  • Wisdom, Thomas N., Xianfeng Song, and Robert L. Goldstone. “Social learning strategies in networked groups.” Cognitive science 37.8 (2013): 1383-1425. (https://onlinelibrary.wiley.com/doi/full/10.1111/cogs.12052)
  • Thompson, B., et al. “Complex cognitive algorithms preserved by selective social learning in experimental populations.” Science 376.6588 (2022): 95-98. (https://www.science.org/doi/abs/10.1126/science.abn0915)
  • Krafft, Peter M., et al. “Bayesian collective learning emerges from heuristic social learning.” Cognition 212 (2021): 104469. (https://www.sciencedirect.com/science/article/pii/S0010027720302882)
  • Krafft, Peter M., et al. “Emergent Collective Sensing in Human Groups.” CogSci. 2015. (https://people.csail.mit.edu/pkrafft/papers/krafft-et-al-2015-emergent.pdf)
  • Almaatouq, Abdullah, et al. “Adaptive social networks promote the wisdom of crowds.” Proceedings of the National Academy of Sciences 117.21 (2020): 11379-11386. (https://www.pnas.org/doi/abs/10.1073/pnas.1917687117)
Part 2:建模方法在信息、病毒的传播等领域的应用
  • Myers, Seth A., Chenguang Zhu, and Jure Leskovec. “Information diffusion and external influence in networks.” Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. 2012. (https://dl.acm.org/doi/abs/10.1145/2339530.2339540)
  • Yang, Jaewon, and Jure Leskovec. “Modeling information diffusion in implicit networks.” 2010 IEEE International Conference on Data Mining. IEEE, 2010. (https://ieeexplore.ieee.org/abstract/document/5694014)
  • Myers, Seth A., and Jure Leskovec. “The bursty dynamics of the twitter information network.” Proceedings of the 23rd international conference on World wide web. 2014. (The bursty dynamics of the Twitter information network | Proceedings of the 23rd international confe)
  • Papadopoulos, Fragkiskos, et al. “Popularity versus similarity in growing networks.” Nature 489.7417 (2012): 537-540. (https://www.nature.com/articles/nature11459)
  • Albert, Réka, and Albert-László Barabási. “Statistical mechanics of complex networks.” Reviews of modern physics 74.1 (2002): 47. (https://arxiv.org/pdf/cond-mat/0106096.pdf)
  • Svoboda, Jakub, et al. “Infection dynamics of COVID-19 virus under lockdown and reopening.” Scientific Reports 12.1 (2022): 1-11. (https://www.nature.com/articles/s41598-022-05333-5)

4、大规模文本及语义分析及其在不同学科的应用(自然语言处理)
文本分析(textual analysis),话语分析(discourse analysis) 一直以来都是人文社会科学研究中重要的研究方法,然而传统人工的文本或者话语分析方法严重依赖手动编码(manual coding),这很大程度上限制了研究所使用的样本量。近些年来自然语言处理(Natural Language Processing)技术的发展让自动化,大规模的文本分析成为了可能。在这一个章节中,我们将介绍一系列发表于顶级会议和期刊上的NLP+CSS的研究,从而帮助你更好地了解NLP可以如何赋能心理学,传播学,社会学,文学,语言学等多个人文社会学科。
  • Pei, Jiaxin, and David Jurgens. “Measuring Sentence-Level and Aspect-Level (Un) certainty in Science Communications.” arXiv preprint arXiv:2109.14776 (2021). (https://arxiv.org/abs/2109.14776)
  • Pei, Jiaxin, and David Jurgens. “Quantifying intimacy in language.” arXiv preprint arXiv:2011.03020 (2020). (https://arxiv.org/abs/2011.03020)
  • Toubia, Olivier, Jonah Berger, and Jehoshua Eliashberg. “How quantifying the shape of stories predicts their success.” Proceedings of the National Academy of Sciences 118.26 (2021). (https://www.pnas.org/doi/10.1073/pnas.2011695118)
  • Danescu-Niculescu-Mizil, Cristian, et al. “A computational approach to politeness with application to social factors.” arXiv preprint arXiv:1306.6078 (2013). (https://arxiv.org/abs/1306.6078)
  • Danescu-Niculescu-Mizil, Cristian, et al. “No country for old members: User lifecycle and linguistic change in online communities.” Proceedings of the 22nd international conference on World Wide Web. 2013. (https://dl.acm.org/doi/abs/10.1145/2488388.2488416)
  • Golder, Scott A., and Michael W. Macy. “Diurnal and seasonal mood vary with work, sleep, and daylength across diverse cultures.” Science 333.6051 (2011): 1878-1881. (https://www.science.org/doi/abs/10.1126/science.1202775)

5、大规模数据的获取和处理方法

随着越来越多的人类行为数据,如消费记录,位置信息,社交媒体言论等被收集,计算社会科学的研究者越多越多地从中受益。更大的数据量和更多样化的信息使得研究者们能够更多地发现人类行为的模式和规律,同时也能回答之前很难被解决的问题。也正因如此,获取大规模的社会科学数据被认为是计算社会科学发展的关键一环 (Lazer等人, 2009),也有许多研究者提出了不同的获取,收集数据的方法。

本章我们将介绍许多前沿的,尚未普及的收集数据的方法,这是对目前广泛使用的数据获取方法如爬虫抓取,API抓取等手段之外的良好补充。本章第一部分将介绍通过计算的方法扩大数据集,或者提升数据质量,比如通过基于博弈论的模型,根据个人的行为推断出不能观测到的人与人之间的社交关系信息。这种方法能够在不扩大数据集的情况下提供新的数据,尤其适合处理存在难以收集的信息时的研究问题。

本章第二部分将介绍多种数据收集的平台和方法,比如如何通过众包(crowdsource),游戏化(gamification)和在线实验的方法收集数据,这些方法目前并不普及,但最近几年已经有非常成功的相关工作,收集到了大量且高质量的数据。我们将会展示若干篇相关的工作论文,与大家一同讨论这些方法的优缺点和可能应用。

Part 1:通过计算的方法扩大数据集、提升数据质量
  • Gomez Rodriguez, Manuel, Jure Leskovec, and Bernhard Schölkopf. “Structure and dynamics of information pathways in online media.” Proceedings of the sixth ACM international conference on Web search and data mining. 2013. (https://dl.acm.org/doi/abs/10.1145/2433396.2433402)
  • Leng, Yan, et al. “Learning quadratic games on networks.” International Conference on Machine Learning. PMLR, 2020. (http://proceedings.mlr.press/v119/leng20a.html)
  • Berke, Alex, et al. “Generating synthetic mobility data for a realistic population with RNNs to improve utility and privacy.” arXiv preprint arXiv:2201.01139 (2022). (https://arxiv.org/abs/2201.01139)
Part 2:多种数据收集的平台和方法
  • Awad, Edmond, et al. “The moral machine experiment.” Nature 563.7729 (2018): 59-64. (https://www.nature.com/articles/s41586-018-0637-6.)
  • Bonnefon, Jean-François, Azim Shariff, and Iyad Rahwan. “The social dilemma of autonomous vehicles.” Science 352.6293 (2016): 1573-1576. (https://www.science.org/doi/abs/10.1126/science.aaf2654)
  • Bakshy, Eytan, et al. “The role of social networks in information diffusion.” Proceedings of the 21st international conference on World Wide Web. 2012. (https://dl.acm.org/doi/abs/10.1145/2187836.2187907)
  • Kim, Taemie, et al. “Sociometric badges: Using sensor technology to capture new forms of collaboration.” Journal of Organizational Behavior 33.3 (2012): 412-427. (https://onlinelibrary.wiley.com/doi/abs/10.1002/job.1776)
  • Dergousoff, Kristen, and Regan L. Mandryk. “Mobile gamification for crowdsourcing data collection: Leveraging the freemium model.” Proceedings of the 33rd Annual ACM Conference on Human Factors in Computing Systems. 2015. (https://dl.acm.org/doi/abs/10.1145/2702123.2702296)
  • Van Berkel, Niels, et al. “Gamification of mobile experience sampling improves data quality and quantity.” Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies 1.3 (2017): 1-21. (https://dl.acm.org/doi/abs/10.1145/3130972)
  • Almaatouq, Abdullah, et al. “Empirica: a virtual lab for high-throughput macro-level experiments.” Behavior Research Methods 53.5 (2021): 2158-2171. (https://link.springer.com/article/10.3758/s13428-020-01535-9)

6、大数据整合结构化数据(调查和档案资料)

大数据的出现绝对不是用来取代传统的问卷调查方法或结构化数据库,相反地,这两类数据的整合可以为我们带来更多、更丰富的数据,从而解决单一数据类型不能解决的问题。

大数据与结构化数据整合可以推断更多较难获得的调查数据。融合大数据与社会调查的探索性或验证性研究主要强调的是使用大数据和预测模型来提出新的测量模型,建立基于对理论构念或需要通过问卷调查和定性访谈获得的“扎根真相”,形成新的测量模型,从而通过易取得的大数据和预测模型去估计不易获得的扎根真相,最大程度的发挥大数据与调查数据结合创生的巨大价值,极大解决各类社会科学问题,满足社会治理、营销等多个场景中对于获得更具实时性、全局性、低成本性的扎根真相的应用需求。

  • Blumenstock, Joshua, Gabriel Cadamuro, and Robert On. “Predicting poverty and wealth from mobile phone metadata.” Science 350.6264 (2015): 1073-1076. (https://www.science.org/doi/abs/10.1126/science.aac4420)
  • Blumenstock, Joshua Evan. “Fighting poverty with data.” Science 353.6301 (2016): 753-754. (https://www.science.org/doi/abs/10.1126/science.aah5217)
  • Steele, Jessica E., et al. “Mapping poverty using mobile phone and satellite data.” Journal of The Royal Society Interface 14.127 (2017): 20160690. (https://royalsocietypublishing.org/doi/full/10.1098/rsif.2016.0690)
  • De Choudhury, Munmun, Scott Counts, and Eric Horvitz. “Predicting postpartum changes in emotion and behavior via social media.” Proceedings of the SIGCHI conference on human factors in computing systems. 2013. (https://dl.acm.org/doi/abs/10.1145/2470654.2466447)
  • De Choudhury, Munmun, et al. “Characterizing and predicting postpartum depression from shared facebook data.” Proceedings of the 17th ACM conference on Computer supported cooperative work & social computing. 2014. (https://dl.acm.org/doi/abs/10.1145/2531602.2531675)
  • Wang, Xinyu, et al. “A depression detection model based on sentiment analysis in micro-blog social network.” Pacific-Asia Conference on Knowledge Discovery and Data Mining. Springer, Berlin, Heidelberg, 2013. (https://link.springer.com/chapter/10.1007/978-3-642-40319-4_18)
  • 罗家德, et al.”大数据和结构化数据整合的方法论——以中国人脉圈研究为例.” 社会学研究 36.02(2021):69-91+227. (http://shxyj.ajcass.org/Magazine/show/?id=76907)
  • Salganik, Matthew J. Bit by bit: Social research in the digital age. Princeton University Press, 2019. (https://www.bitbybitbook.com/)

专题一:预测性和解释性结合的研究
预测性和解释性结合的研究一方面探索性研究可以探索数据普遍规律,验证、修正或启发理论并提出命题;另一方面,验证性研究可以在提出命题的基础上,设计理论验证的研究设计,提出假设并验证假设。这种整合性的研究兼具理论推论性和可预测性,使得探索性研究中的黑箱模型获得更多的可解释性。
在大数据(或与结构化数据整合)的探索性和验证性相结合的研究,可提供在理论解释模型上新的洞见,具体包括:(1)获得新的理论的测量指标、测量方法,或者对原有缺少可解释性的指标进行拆解或重新划分;(2)获得不同指标之间的交互关系与因变量的因果关系;(3)获得在社会治理、知识决策、政策干预上新的洞见和启发。最终这种探索性和验证性的研究,可以综合获得理论上的可解释性和较高的预测性。
  • Hofman, Jake M., et al. “Integrating explanation and prediction in computational social science.” Nature 595.7866 (2021): 181-188. (https://www.nature.com/articles/s41586-021-03659-0)
  • 罗家德, et al.”论社会学理论导引的大数据研究——大数据、理论与预测模型的三角对话.” 社会学研究 33.05(2018):117-138+244-245. doi:10.19934/j.cnki.shxyj.2018.05.006. (http://shxyj.ajcass.org/Magazine/show/?id=74670)
  • Awad, Edmond, et al. “The moral machine experiment.” Nature 563.7729 (2018): 59-64. (https://www.nature.com/articles/s41586-018-0637-6.)
  • Agrawal, Mayank, Joshua C. Peterson, and Thomas L. Griffiths. “Scaling up psychology via scientific regret minimization.” Proceedings of the National Academy of Sciences 117.16 (2020): 8825-8835. (https://www.pnas.org/doi/abs/10.1073/pnas.1915841117)
  • Evans, James, Xiaoming Fu, and Jar-Der Luo. “Inaugural Message from Editors-in-Chief.” Journal of Social Computing 1.1 (2020): 7. (https://dc.tsinghuajournals.com/cgi/viewcontent.cgi?article=1006&context=journal-of-social-computing)

专题二:利用移动数据研究COVID-19的传播和防控

个体位置数据的丰富,使得人类移动性(human mobility)的研究在过去十几年取得了丰硕的成果。从 twitter / 微博的签到数据中,我们可以获得公开的个体位置信息,并附带丰富的语义(如文本、图片),出租车轨迹、手机位置数据更是提供了高时空连续性的人群移动信息,让我们可以研究从个体到群体的出行规律。

人类移动性的研究与交通、城市规划、旅游、流行病学等领域紧密相关,本专题我们聚焦在利用移动数据研究传染病的传播和防控上,一方面这个研究议题在过去两年多的时间里出现了大量有实用价值的成果,与当下 COVID-19 疫情防控息息相关;另一方面,透过这个主题,我们也可以回顾经典的人类移动性模型,以及这些模型与流行病学模型的关系。

  • Aleta, Alberto, et al. “Modelling the impact of testing, contact tracing and household quarantine on second waves of COVID-19.” Nature Human Behaviour 4.9 (2020): 964-971. (https://www.nature.com/articles/s41562-020-0931-9)
  • Hunter, Ruth F., et al. “Effect of COVID-19 response policies on walking behavior in US cities.” Nature communications 12.1 (2021): 1-9. (https://www.nature.com/articles/s41467-021-23937-9)
  • Chang, Serina, et al. “Mobility network models of COVID-19 explain inequities and inform reopening.” Nature 589.7840 (2021): 82-87. (https://www.nature.com/articles/s41586-020-2923-3?te=1&nl=opinion-today&emc=edit_ty_20201216)
  • Brockmann, Dirk, and Dirk Helbing. “The hidden geometry of complex, network-driven contagion phenomena.” science 342.6164 (2013): 1337-1342. (https://www.science.org/doi/abs/10.1126/science.1245200)
  • Wesolowski, Amy, et al. “Quantifying the impact of human mobility on malaria.” Science 338.6104 (2012): 267-270. (https://www.science.org/doi/abs/10.1126/science.1223467)
  • Kraemer, Moritz UG, et al. “The effect of human mobility and control measures on the COVID-19 epidemic in China.” Science 368.6490 (2020): 493-497. (https://www.science.org/doi/10.1126/science.abb4218)
  • Ferretti, Luca, et al. “Quantifying SARS-CoV-2 transmission suggests epidemic control with digital contact tracing.” Science 368.6491 (2020): eabb6936. (https://www.science.org/doi/full/10.1126/science.abb6936)
  • Schlosser, Frank, et al. “COVID-19 lockdown induces disease-mitigating structural changes in mobility networks.” Proceedings of the National Academy of Sciences 117.52 (2020): 32883-32890. (https://www.pnas.org/doi/10.1073/pnas.2012326117)
  • Persson, Joel, Jurriaan F. Parie, and Stefan Feuerriegel. “Monitoring the COVID-19 epidemic with nationwide telecommunication data.” Proceedings of the National Academy of Sciences 118.26 (2021). (https://www.pnas.org/doi/10.1073/pnas.2100664118)
  • Hou, Xiao, et al. “Intracounty modeling of COVID-19 infection with human mobility: Assessing spatial heterogeneity with business traffic, age, and race.” Proceedings of the National Academy of Sciences 118.24 (2021). (https://www.pnas.org/doi/10.1073/pnas.2020524118)
  • Xiong, Chenfeng, et al. “Mobile device data reveal the dynamics in a positive relationship between human mobility and COVID-19 infections.” Proceedings of the National Academy of Sciences 117.44 (2020): 27087-27089. (https://www.pnas.org/doi/10.1073/pnas.2010836117)





七、关于主办方和集智俱乐部读书会




主办方:集智俱乐部
协办方:集智学园

集智俱乐部成立于 2003 年,是一个从事学术研究、享受科学乐趣的探索者的团体,也是国内最早的研究人工智能、复杂系统的科学社区。它倡导以平等开放的态度、科学实证的精神,进行跨学科的研究与交流,力图搭建一个中国的 “没有围墙的研究所”。

集智学园成立于2016年,是集智俱乐部孕育的创业团队。集智学园致力于传播复杂性科学、人工智能等前沿知识和新兴技术,促进、推动复杂科学领域的知识探索与生态构建。

集智俱乐部读书会是面向广大科研工作者的系列论文研读活动,其目的是共同深入学习探讨某个科学议题,了解前沿进展,激发科研灵感,促进科研合作,降低科研门槛。

读书会活动始于 2008 年,至今已经有 40 余个主题,内容涵盖复杂系统、人工智能、脑与意识、生命科学、因果科学、计算社会科学等。凝聚了众多优秀科研工作者,促进了科研合作发表论文,孵化了许多科研产品。如:2013 年的“深度学习”读书会孕育了彩云天气 APP,2015 年的“集体注意力流”读书会产生了众包书籍《走近2050》等。

加入集智VIP,即可解锁包括计算社会科学读书会在内的全站课程、读书会。详见:
集智学园2022年费VIP开启,与5000+集智社区成员一起探索复杂性!


点击“阅读原文”,报名读书会