大链接与大数据——AI&Society第二期活动回顾(含下期预告)
为了挖掘在AI与社会研究交叉领域有想法的研究者,促进思维碰撞,腾讯研究院S-Tech工作室与集智俱乐部共同打造了“AI&Society”的系列学术沙龙活动。
2017年11月26日,在深圳华侨城创意园,linkspace的分享空间里成功举办了AI&Society系列的第二次活动:围绕“大连接与大数据”这一主题,邀请了来自耶鲁大学的计算社会科学博士施永仁分享了计算社会学方面的研究实例并和在场嘉宾做了相关分享。
主持人:
张江,北京师范大学系统科学学院教授,集智俱乐部、集智AI学园创始人
下面,我们就一起回顾本次活动的几个精彩片段,感受一流科学家是如何透过大数据计算,大规模田野实验,和在线社会实验这三面棱镜来探索人类社会行为,并以此讨论以下问题:
新一代的人机共生社会需要怎样的社会科学?
社会科学的研究成果又如何促进人工智能的发展?
人工智能会怎样影响人类社会?
社会科学研究又如何借鉴人工智能领域的最新成果?
科学的政治偏向性
政治两极化逐渐渗透到了美国社会的各个方面,科学领域似乎成为了一个新的意识形态斗争的战场。为了量化意识形态对于大众消费和传播科学知识的影响,我们通过分析数百万册亚马逊图书的购买纪录,让志愿者对1400本政治书籍进行意识形态标注,然后去推断网络中其他书籍的意识形态倾向,并利用可视化软件呈现了这些书籍的从购买网络。如图所示:
其中,每个节点表示一本书,连边表示两本书曾经被同一个用户购买。红的节点代表的是倾向保守主义(conservative)的书,而蓝色的节点是倾向自由主义(liberal)的书。
此外,我们还对书籍按照学科进行了聚类,并研究了不同政治偏好的购买者对学科书籍的购买也有偏向性。我们发现,偏向liberal的人同时也偏好基础科学的图书,而偏向conservative的人更偏好应用科学的图书。如图所示:
该图展示了图书归类后的每一个领域平均的“政治倾向性”,颜色越红(括号中的数值越大)的学科越偏向于保守主义。我们看到,类似气象学(Climatology)就是典型的“保守主义者”,工程则是比较典型的“自由主义者”。而当我们对所有书进行平均的时候,我们看到整个科学更加”政治中立“(0.52)。但是,与此相对,人类学和社会学更加”保守“,而生命科学和物理科学则更加”开放“。
进一步,我们还可以讲每个学科的政治倾向性和政治倾向的差异性绘制成如上图所示的样子。随着政治倾向性逐渐变得保守,学科内部的差异性也会变大。
小结:上面是我们在使用大数据来研究社会计算的学的一个例子。我们的计算社会科学更偏向于把人类的行为和社会的交互转换成这样一种拓扑网络的构想,而且我们研究了仅仅局限于某一种的社会交互。所以我在做这个社会网络分析的过程当中经常会问自己这样一个问题,就是社会连接到底是什么?什么样的东西能够构成一个社会连接?
大规模田野实验揭示人类社会关系
我们在做大数据分析的时候,往往是把整个社会关系的内容剥离出来,我们只是去从非常结构化的角度去研究网络拓扑结构或者这个拓扑结构是如何变化的。但是我们很少关心的问题是某一个连接的意义是什么?它是在什么样的环境下面产生的?这种连接和另一种连接的区别是什么?因此,也就有了这样一个大规模田野实验的构想和实践。
我现在正在做的一个工作是去洪都拉斯的北部的一百多个村庄进行田野调查,我们收集了将近3万个村民的社会网络,包括不同的种类的网络,比如亲属关系、朋友关系、金钱交易关系、卫生咨询关系、组织从属关系等。为了更高的精度,我们需要先派一个小队到每家每户去采集每个人的照片信息,然后我们第二次去村庄的时候就给每个村民看一系列的照片,让他们指认你是否认识这个人,TA和你的关系是什么,比如说是你的父母?谁是你最要好的朋友?等等,整个过程还是非常辛苦的。
这里我们可以看到14种不同关系下的网络:
我们看到,两个人有相同的属性,就更容易成为朋友,更容易有一条网络的边存在他们两个人之间。在这样一个社会网络上,我们的研究更加关注的是,关于健康,新的知识、新的消息如何更好的传播。
在这里,我们把眼光放在三个因素上:
一、节点边属性的多样性,一个节点边的种类更多,就更容易获得多样的健康知识;
二、另一个是边的分布,如果这两个人有同样数量的边和同样种类的边的话,那边的分布会决定你到底能够获得什么样的信息,什么样的新的知识;
三. 第三个因素是分散性,如下图:
比如说在右边这个人的话有三个朋友,但是这三个朋友之间毫无关系,相对于左边这个人的话,同样有三个朋友,但是他们之间都存在着社会关系,这样的话左边这个人所获得的新的知识的概率就大大减少,因为他们的信息都是重叠的,而在右边的这个人的话就可能获得不同的信息,从这个网络的不同的位置获得新的信息。
第二个大问题就是如何去用这个社会网络来干预人们的行为,就是最大化社会利益。比如说,我们如果要干预一个人群的话,我们尽可能的去干预那些网络中中心度比较高的人,而不是去干预在网络边缘的人。因为如果A这个人接受了某一种创新的话,那很容易他附近的人员也会跟随着去接受某一种创新。进而,我们可以去讨论如何去预防流行病的爆发,如何去筛选样本来种植疫苗?但是,其实这是一个非常困难的问题,为什么?因为如果你要去把整个网络都画出来的话,是非常费时费力的一件事,你要去问出所有的人的社会关系几乎是不可能的;而且在很多情况下,我根本不知道如何去找到他们。
所以在这种情况下,用一些比较有效的基于网络的干预手段的话,那会可能起到事半功倍的效果。所谓的干预就是包括发放卫生产品,发放使用说明或教育小册子等等。我们选取了5%的村民,同时每个参与的村民都会给四张选票,可以发给其他村民,这样的话得到选票的村民也可以参与到项目中来,从而接受药物的发放。
问题的关键是我们应该去干预谁,我们有5%的人口选择,但是我们有三种不同的干预方法,第一个方法是根据内度数,去找到内度数最大的节点对他们进行干预(也就是选择那些获得村民推荐比较多的村民作为干预对象);第二个方法是随机选取节点,在网络里随机去干预5%的人口。然后第三个方法是随机节点的朋友:我们先去找到5%的随机节点,然后让他们去提名他们的朋友,进而去干预这些朋友。最后的实验结果表明,以朋友提名这种网络策略,是最行之有效的。
四个村庄的社会网络图,节点是村民,不同颜色的连边表示不同的关系(红色:兄弟关系、灰色是配偶关系;绿色是朋友关系)。我们针对每个村进行了两组干预试验,一种实验是发放多种维生素(Multivitamins),其中红色的节点就是我们选择的目标干预节点;第二种实验是发放含氯消毒液(chlorine),绿色为我们选定的目标节点。
不同选取目标节点的方法会导致不同的干预效果。横坐标为实验进行的时间,纵坐标为愿意参与项目,实现卫生防治的村民比例。在左边的图中,我们看到最后一种方法,也就是选择随机村民推荐的朋友作为我们的干预节点会得到更好的效果。右侧的图是含氯消毒液发放实验,也是第三种方法更有效,但是不同方法的区分并不明显。
为什么第三种方法更好呢?就其原因就在于一般的社交网络都是无标度的,而这种网络会存在着所谓的“节点悖论”的效应,也就是:你自己的平均好友数会低于你朋友们的平均好友数。
节点悖论可以应用到广告推广活动中。一个现实的意义就是,如果你想去推广你的产品,不仅仅要为你的受众推广,还要附赠他另外的产品,让他推荐给他的朋友们。
人工智能如何影响人类社会
如何用机器人来干预我们人类的集体行为?这是DeepMind的AlphaGo打败了李世石之后,我们思考的一个问题。如何用一些比较低级的机器人或者AI来改造这个世界,让我们人类社会更加有效地工作?
我们设计了一个很简单的颜色博弈实验。我们在亚马逊土耳其机器人(Amazon Mechanical Turk)这个众包平台上雇佣了大量的志愿者,并让他们在线参与这个颜色协调博弈实验。参与者之间的社会关系是我们事先通过网络连接设置好的,每个参与者只能看到自己周围的网络邻居,如下图所示:
首先,我们的平台会随机为网络中每个参与者给出一种颜色,如果你的颜色和邻居的颜色不同,就说明你们之间存在着一种冲突。因此,我们的实验要求参与者在尽可能短的时间里尽可能多地解决冲突。如果所有参与者能够在5分钟之内协调好所有颜色的话(也就是使得网络上不存在着冲突),那么所有参与者都会得到一份奖励。如果解决所有颜色冲突所用的时间越短的话,那整个系统的人的这个协调的工作做得越出色。
于是,我们问这样的问题,假如我们让一些机器人参与到博弈实验当中,它是否会帮助人类群体更快地解决颜色协调博弈问题呢?如下图所示:
那么我们应该如何放置这些机器人呢?我们对比了三种情况:第一种是随机放置机器人;第二种是将机器人放置到网络的中心位置;第三种是放置到边缘位置。
除此之外,我们的机器人应该遵循什么样的规则呢?首先,它应该是理性的,也就是它会选择一个和周围邻居颜色冲突数最少的一种行动方案;其次,我们的机器人也可能包含一些非理性的因素,它偶尔会随机乱来选择自己的行动。我们把随机行动所占的比例用噪声来表示,区分出0噪声、低噪声(10%的随机选择)和高噪声(30%的随机选择)三种情况。
于是,三种噪声水平以及三种放置机器人的网络位置两两组合一共九种可能性,我们希望知道哪一种组合会让人们完成协调博弈的速度更快呢?
答案如下图所示,我们可以看到在所有的这些组合当中,只有中间的那一个组合,机器人会显著提高系统整体的效率。在每张图中,横坐标是实验进行的时间(总共五分钟),纵坐标是解决冲突的比例,蓝色的线是人机混合解决问题的情况,浅蓝色的线是只有人做实验的情况。我们明显看到,在大多数情况下,机器人的参与都会提高解决问题的效率(体现为深蓝曲线通常在浅蓝曲线下方),而正中间的情况(机器人被放置到网络中心,他们有10%的随机选择)会让整体效率最高(深蓝色曲线下降最快)。
这个实验告诉我们,在人机共生的社会下,只要我们合理地布置机器人所在社会网络中的位置,精巧地设置他们的行为规则,我们的社会将会更加高效。本篇文章“Hirokazu Shirado & NicholasA. Christakis: Locally noisy autonomous agents improve global human coordinationin network experiments, Nature 545, 370–374, 2017”发表在今年五月的Nature上面,并被选为该期的封面文章。
施博士的分享结束后,集智嘉宾与在场观众针对本次活动的主题在现场做了深入的思考和探讨。大家从不同的专业背景分享了自己对于施博士工作的看法和背后的现实意义。同时也结合自己的领域和实际情况探讨了未来社会科学的发展和AI的对人类社会的影响。具体参见讨论环节记录,并且还有附上现场大家一起交流、讨论的彩蛋照片哦。
主讲人:施永仁
讨论环节记录:
张江:接下来就是我们精彩的那个互动环节,每次互动的时候会产生出很多的火花。第一个环节是这个我们请几位嘉宾做一个点评,然后接下来就是我们这个跟现场的朋友一起来互动这样两个环节,那首先请汪小帆老师来为我们做交流分享,因为汪老师可是咱们复杂网络学术圈里面的资深专家。
张江
汪小帆:首先这个讲座真的非常精彩,施博士的第一个工作是基于亚马逊平台的大数据的,我曾提到过,各个平台都会有自己的一套统一的推荐算法,我们如何来保证这个算法本身的公正性?这个好像没有人去关注,至少今后也许会受到更多的关注,就是说不管是Facebook也好还是微信也好还是什么也好,我们所有的这个设计都在平台当中,这个算法本身是不是就是带有倾向性我们谁也不知道。即使我们假设所有的管理层所有的员工自己都是中立的,但是你设计出来这个算法本身就有一个自身的特点,这个特点到底是不是本身就带有某种偏见?第二个的话就是我们这个大数据分析的,如何真正去推动大数据研究在实际中的应用?大数据的概念已经提出有很长时间了,我们如何能更好的利用大数据帮助政府做服务工作?我们科研工作可以做得很好,但真的要把它落地我觉得还是有很多的工作可以做的。第二个,关于施博士做的那个社会实验的工作,是一种典型的社会学与网络科学的交叉研究。我是典型的工科背景出身的,像诗雨是典型的社会学背景的,确实这种学科交叉很难实现。我们说了这么多年,但真的要把好的工作做好,交叉变得越来越来越重要。包括田野调查,都是十分辛苦而且很难获取数据的工作,你可能是需要在农村待上几个月,待上半年,待上一年,可能你得到的数据才真的是有温度的、有情感的、真实的数据。施博士说,通过朋友策略来进行网络干预,这个想法对于我一个搞网络的人来说,的确是个很巧妙的idea。因为有的时候真实的网络数据我是不知道的,比如说政府,四川凉山州艾滋病很多,但是你要把艾滋病病人之间的关系都搞清楚,这个挑战其实蛮大,所以根据今天的报告,我们就可以这样做:先找到一些人,再根据这些人的朋友去推广,去纠正。
张江:谢谢汪老师,然后接下来请陆诗雨研究员,请你从社会科学的背景,另外一个是从腾讯研究院这样一个工业的背景来点评一下。
陆诗雨:非常荣幸,也受宠若惊。我先跟大家介绍一下我自己,以及我所服务的机构,我叫陆诗雨。然后目前服务于腾讯研究院,同时也是腾讯研究院旗下S-Tech工作室的成员,然后我们所在的这个我所服务的组织一部分人群也跟我一样在从事社会科学方面的研究。我们所覆盖的学科包括社会学,传播学,心理学,人类学这些传统的社会科学的学科,我看到像施博士,他其实也是社会学的博士。然后在今天听这个话题非常的激动。我们自己是做了很多的社会学,还有人类学方面的研究工作,用的也是比较传统的调查的方法。今天听了施博士的这个讲解之后心情很激动,我听到了大数据方法的应用,而且做得非常扎实,非常用心,一方面是把网络作为一种媒介的手段,也作为一种干预的手段去进行探讨,分成不同层次做了很多的研究,这让我们在社会科学研究的人觉得又多了一双想象力的翅膀。借助这个大数据,这双翅膀可以让我们有更远的路可以走,也可以探索更多的风景,非常期待今天在座的朋友能够更多地从事相关的研究工作,在这里我也代表腾讯研究院S-Tech工作室向各位发出邀请,有兼具社会学想象力和大数据应用能力的同学回头来找我一起来聊聊天,我们可以有各种各样的方式来进行合作,一起用我们所学所知去寻找不一样的风景,去解析不一样的答案。好,谢谢大家,谢谢老师。
张江:接下来请王雄博士来给点评一下。为什么请王雄?是因为在今天的这圈人中,据我所知王雄博士应该是理工科背景最强最浓的一个,所以请王雄来点评一下。
王雄:有一个结论,我觉得特别感兴趣,它大概说的是这个社会如果有一些不理性,可能不是坏事。但是你这个模型和推理是基于一个特定的模型和数据分析,然后得出这样一个结论的,我想问就是在社会学里面怎么看待这样一个推广,就是说你从一个具体的模型推出了一个一般的结论,然后这个结论在社会学的角度来看的话,他的推广如何?
施永仁:对,我觉得这个是一个比较普遍的问题,因为对我们做实验的人说,特别是做社会心理学的人来说,如何去把你的实验所得到结果去推广到其他的应用层面上,还是一个比较大的问题。所以一方面应该是可能着重于把相关的问题用这种类似的方法和类似的实验去应用一下,比如说我们现在正在做的一个项目,就是如何去安插机器人在一个社会网络里来解决舆论导向的作用。在美国每年都会有有特别火爆的假新闻,如何把这种假新闻最大限度地把它们制约起来?所以我觉得这个问题并不仅仅在于这一论坛的这一个实验,而是在于这个方法论,所以我觉得还是要做更多的实验,然后去用一些比较严谨的统计方法来得出比较严谨的结论。
司晓:最后一个slide,如果社会有一些不理性,模型是针对特定的模型和数据分析,怎么看待推广?
施永仁:我觉得这是普遍的问题,如何把实验的方法做推广。比如,我们现在在做的一个相关的试验就是如何安插机器人,把假消息(fake news)的传播能够最大限度地制约起来。
司晓:你们这个限定假消息的实验是怎么做的?
施永仁:我们做的问题是这样一个场景的,如果一个村庄正在面临海啸的威胁,村民们就会相互发送关于海啸的消息。这些消息有的是真实的,有的是虚假的。如果正确消息被广泛传播,村民们可以及时应对海啸,村庄就可能被得救;但如果传递的是假消息,则村庄就濒临危险了。
假如我们能够安插了一些机器人在这个村庄的社会网络上,那么我们能否减少假消息的传播呢?在社会学上有个叫重复链接(redundent links)的概念。它的意思是说,如果我们要传播一个观念,就需要不同的人反复地相互影响。这种消息的传播就不像疾病那样,它需要多条重复的路径抵达。假如通过机器人可以将某些节点安插多个重复链接,那么假消息就不容易传播了,这是我们正在做的项目。
司晓:效果怎么样?
施永仁:还没有数据,还没有做完。
司晓:我不知道理解对不对,根据你刚才的结论,机器人得放到中心节点上效果会更好。可是,你怎么把它放到中心点上呢?
施永仁:对于刚才所说的颜色协调博弈问题的例子来说,是这样的结论。但是对于这个假消息的例子来说并非把机器人安插到网络中心,而是放到容易传播的节点附近,并增加一些redundent links,就能够防止消息的传播了。
司晓:我再引申一个问题:在微信里的消息传递是有圈子,比如都市白领阶层和农民工阶层完全就不是一个圈子的。我们知道一般跨圈子的传播很困难,但也只有跨圈层的传播才能爆发增长。就比如,前段时间爆发的罗一笑捐款事件就是这种跨圈层传播的例子。那么,对于虚假消息传播这个实验,怎么在微信的体系里去做,从而减小虚假信息的影响呢?
施永仁:那如果套用我们的研究思路的话,可能就是设计一些在线的robot,它们能够增加一些重复链接,从而避免多个渠道反复刺激的作用。我们知道,在传播学中有两种传染,一种是complex的一种是simple。对于消息的传播就是complex的,只有当你在朋友圈看到多个人发同一个消息的时候就才会真的被它所影响。所以,如果通过机器人人为营造这种社区的隔离,那么一条消息从一个社区到另一个社区的传播就非常困难了。
叶韦明:跟着司总的问题说,我们前些日子做的一个项目得到的结论是传播是否能够跨圈子还是要看不同的问题以及不同消息的种类,它们会有很不同的结论。就我们所知,社区之间的桥梁可能会促使消息的跨圈层传播。但是,即使有桥梁存在,也并不意味着什么消息都能通过桥梁传播。罗一笑这个事件是一个特殊种类的信息,刚好能够传播了。但我们发现,更一般的商业方面的信息在跨圈层之间的传播还是很困难的。
张江:好,那接下来我们继续,我想有请跟咱们这个主题差别比较大的专业背景的一个人来讲讲,这就是刘清晴,她作为神经科学家、生物学家,怎么看待今天我们的这个报告?
刘清晴:非常荣幸能来参加这个报告,我觉得确实非常精彩。其实我在集智俱乐部混了很多年了,很早就跟大家认识,因为觉得这方面很有意思。然后这个报告我很感兴趣。因为我是搞神经科学的,我觉得现在神经科学其实面临一个瓶颈,我们以这种传统的思路,对于一个动物可以从多个层面来研究它,看它的行为,然后把它脑子打开,看到里面神经怎么长的?然后记录它的信号,看它的神经怎么活动的?但即使这样的话,对于这个最有趣的问题,就是说他在做一个特定行为的时候,这个脑子里面的思维过程到底怎么回事?我们虽然知道很多细节,但是总的来说这个问题还是得不到解答。所以说我一直觉得像这种网络分析的方式,可能会对打破这个瓶颈提供一些帮助,这就是我的看法。根据今天这个报告,其实我觉得研究这种社会学的方法所面临的问题,其实和我们做动物实验的时候遇到的问题其实非常像,首先是像得到的数据,数据的质量如何去控制?以及比如说刚才这个施老师讲的这个洪都拉斯的村庄去做调查非常艰苦,但是村庄数量也就那么几百个,最终得到这个数据量是否是足够的?这个最后得到的模型是不是可推广的?还有最后得到的数据,其中有多少只是由于一个偶然因素得到的?
所以其实我的想法是,如果是把动物实验和现在这个社会科学方法,就是刚才讲的这种研究方法结合起来的话,会对这个数据建模有一个更好的作用。比如说我们养的动物例如猴子之类的,那么它的这个思想就是我们要看这个猴子和其它猴子有什么关系,就这一方面实验者是可以控制的。那么另外一方面就可以比较详细的对它进行监控,在这种情况下得到的模型也许更加接近于真实,我是这么一个想法。然后给大家就是有社会学背景的朋友,如果对这方面感兴趣的话,可以跟我联系,我们可以合作。
张江:谢谢!之后就想请我们这个与会嘉宾之中最年轻的一位,也是在旁边一直默默地听,但是始终没有发言的黄金龙同学来点评。首先,我介绍一下,他现在还是在南方科技大学大四的本科生,也是集智凯风研读营学者,有请黄金龙来说说你的看法。
黄金龙:大家好,非常高兴今天来参加这次活动。我自己的背景是物理方向,然后在研究量子计算。之前对社会科学的研究比较少,然后今天听这个报告的时候,我觉得研究社会综合科学和政治的关联,觉得这个话题比较有意思。之前从来没有想过这些方面的研究。然后我觉得很有意思的一个点就是最后讲到那个机器人的时候,加上机器人可以对博弈有更好的解法。然后我想问的是,如果对于不同的人来说,他们之间如果有交流的话,比如说他们可以通过电话联系,这种有交流的话,他们会不会有更好的结果呢?
施永仁:也应该会有更好的结果。不过,很多时候我们的信息都是局部的,如果你要增加一些,这就肯定会让实验非常的昂贵,所以在用非常有限的资源的情况下,能够实现整体上的协同,整体上的颜色会更有现实意义。比如说如何去调整你的上课时间和你所感兴趣的事情等等,这些问题都是每个人的局部信息。如何去利用这些局部信息最优化自己的这种局部网络,然后如果能够安插一些机器人的话,可以最大化的让他们跳出这种局部最优。当然,如果真的能够用全局沟通的方式解决的话,肯定会达到更好的效果。
张江:那下面还继续我们的这个嘉宾的评论环节。有请徐思彦女士来做一个分享。
徐思彦:大家好!我也是腾讯研究院的研究员。首先我也是来学习的,非常感谢今天施博士给我们对这个计算社会科学进行了一个非常深度的科普和有一个很好的案例介绍,让我们了解到计算社会科学的进展。那我们自己研究的方向是前沿科技对产业会有怎么样的重塑?包括对社会产生什么样的影响?那今天讲的这个范畴属于大数据的范畴。我们在几年前就讲到了有大数据这个趋势。我们大家知道一般这个科技去影响产业和社会它有一个曲线,在一个科技趋势刚出来的时候它可能炒作非常的强烈。就像几年前,大家谈论大数据一样,但是这个影响通常是在几年以后这个概念的炒作冷却以后,但是它在产业界的影响才会慢慢的体现出来。那现在其实在腾讯也可以看到这个大数据的威力已经体现在非常多不同的行业和业务的环节。
我举几个例子。第一个例子是营销,现在的营销已经在深度运用大数据了,除了刚刚说到的像智能推荐的一些算法,另外还有比如我们微信里会接收到的广告也是千人千面的,会根据每个不同的人,它不仅仅是微信上的数据,可能我们腾讯还有各个平台上不同的数据都会在每个人身上形成了一个很个性化的标签,然后来推荐一些内容,这可能跟我们以前的理解不一样。我们以前去做一些推荐的时候可能只有一些收入的变量,或者是一些非常准确的经济学意义上的变量,但是我们通过这个社交平台了以后可以获得非常多不同种类的属性,比如你的兴趣偏好包括你加入的社群组织,然后这些非常丰富的数据怎么样用到商业里?领域里面?我觉得也是学术界和商业界可以一起共同探讨的。就是同样的一个技术,也可以用在不同领域,比如说金融里面有证信,也可以是传统的商业银行,它一般只会收集某些维度的数据,但是现在就是社交数据,也是腾讯非常跟别的不同的公司一个比较不同的一个特色,它也是越来越多的去用在这些传统金融领域。像贷款服务,传统一定是要有证信记录的人,是你有一定的收入或者你借过钱,银行才可以给你提供服务,因为现在有这些数据方法可以去采集到不同维度的数据,可以让我们比如说非洲一些没有征信数据的人群,没有这些收入的人群,他们也可以享受到一定程度上的金融服务,我觉得也是符合你刚刚说的。怎么去建立一个你的社会属性和你的商业属性的一个连接,也是需要更多科学家去探索的。所以我还是非常期待,看以后有什么新的有意思的方向,大家可以一起探索,谢谢。
张江:谢谢,接下来请我们的曹建峰研究员来给做一个点评。
曹建峰:谢谢大家,其实我今天也是过来学习的,对于计算机的课程也不是特别懂,但是我觉得包括施老师今天的演讲,大数据的话,我们未来的话,其实它在社会上作用越来越大,其实它的作用就是说可能从事人类之前想到的一些研究,包括在谷歌之前可能说没有人知道搜索引擎可以预测流行病的爆发。可能也没有人知道,亚马逊也可以预测、研究一些政治立场,其实可能在未来说是一个很大的一个趋势,因为很多的人自己认为是大数据其实可以做。
有几点问题,现在很多研究都是通过这种代理的数据去建模,其实大数据它不是一个直接的可以去做的一个东西,它是用这种代理建模的方式来预测未来。那你模型的一些准确性,效用,可能包括你使用的数据是否有偏见等等,都可能会带来类似一个算法和预测的歧视或者准确性的问题。那还有一个层面,整个现在有这种思潮,我们用数据、计算机科学跟社会科学去量化,去具体化一些问题,但是可能就是这里面会不会产生一些事会给这个社会造成威胁的。就比如之前好像有一种研究,就是对于大数据预测犯罪人的一个犯罪属性,这也是上海做的一个研究,就是它把你的面孔采集过来,有些人犯罪,有些人是清白者,然后训练一个模型,就说当遇到一个新的嫌犯的时候,他就能知道你是不是一个罪犯。社会科学里面有没有一些需要明确的界限,一些伦理的界限可能是要讨论的,就是如果我们用大数据,用一些科学方法去量化整个社会科学的时候,会有这种问题,谢谢。
张江:谢谢!接下来就请这个新到的嘉宾,他是深圳市国新南方知识产权研究院秘书长宋兵先生,请给大家做一个分享。
宋兵:大家好,今天也非常高兴参加下午的这个圆桌会议。我主要是从事的工作有点跨界,有点杂。就像今天,我们来了之后接触了各式各样的人,有从事生物学的,也有从事产业的,还有包括量子计算的等等。那在这里其实这个连接本身就是一个跨界。那么大数据的话,那么足够的大,那它也是要足够的去跨界。就是逐步的多之后,这样它才可以去接近一个真理。那么我有一个思考,就是说我们不管哪一种技术,哪一种产业,最后你要有应用场景。只有应用到场景之后,它才可能会形成一种可持续的发展。我记得2009年我在深圳政府的时候,写这个深圳十二五信息化规划的时候,我当时也跟马总交流过。当时这个云计算到底是一个怎么样的概念?我们在2009年的时候其实是懵的。我问马总,那什么时间这个产业会比较大,能够兴起来?因为我们当时正在建深圳超算中心。他说那可能也得20年。然而现在,我们国家的很多服务都会依赖类似的平台。我觉得,实际上现在整个发展是指数级的发展。所以我就在想,我们知识密集型产业可能更多是从技术到产业直接结合。其实技术跟社会之间这种接触,像我以前关注的不是特别多。像朋友圈我们可能玩,我们就是作为一种社交手段。但是通过大数据,我们就能从朋友圈里面发掘出产业要素。所以刚才也讲到的,就是社会跟产业这种结合点很重要。未来的话,社会和产业和技术之间的这种融合可能会更紧了,就不仅仅说我们亚马逊上我们卖几本书这样一个东西。就是刚才这个施博士讲的,这个学科的政治性,中立性。其实在这个里面,背后我们讲政治经济学也好,它是一样的。这是我的一个分享,谢谢。
张江:好,谢谢宋主任。最后一个嘉宾,有着神经科学背景的杨星先生来给做一个点评。
杨星:谢谢,我也很荣幸能够来到这样一个场合,我从事神经研究工作的。我们在研究神经问题的时候,目前的研究手段还是比较有限的,我们基本上就是确定的一个环路层次。环路是个什么意思呢?就相当于一个比较机械的思维,就是A成员干了什么,他又教B成员,那B成员干了什么教C成员,然后C成员又返回来影响A.但很明显,我们大脑并不是这样一个机械的环境,是一个非常复杂的活动。所以我们就希望说能够借助一些网络科学的研究手段来认识大脑、理解大脑。这是今天从这个时候报告中感觉能学到的。当然我也还有一些问题可能需要互相探讨一下,就是因为比如说你有一部分研究的话,可能就是从数据主要是通过线上获得的,那么另外一部分你可能就是实际去考察这个人之间的人际关系。我比较感兴趣说,那线上这些关系跟线下的这个关系有没有可能得出来的结论会略有区别?
施永仁:对,肯定会有很大的不同。但是我觉得一个比较有意思的关注点就是如何去将线上和线下的网络整合,那样的研究一定会很有趣。线上用比较完全的数据把整个网络做出来,之后再去线下去做调查,做这类研究,去问这些人到底某个关系是什么样的关系?到底你在线下和这个人有没有什么样的接触,等等。这样的话就可以on-line到off-line,线上线下的世界相结合,社会整个系统可以把它拼凑在一起,这样就可以解决更多问题了。
杨星:我的思路是这样的,可能如果走线下的这种接触的话,就是所谓生物学上的接触会更多。比如这些人之间,如果你线上的话,我们可能线上只能交换图像和声音的资料。那么到了线下你接触以后,就可以接触气味,那么这样的话有可能人与人之间还会交流,比如说我们身上的细菌的菌群,那么这个是实验的神经科学一个比较前沿的问题,就是说人身上的细菌的菌群,有可能会塑造你整个生活,甚至夸张一点,会改变性格。那么这样的话如果说有线下的这种交流的话是不是就会更好?可能线上我对这个人关系很好,但是我从来没有见过面,那么跟他线下完全直接的交流的话,可能传播起来就会不太一样。
施永仁:这个切入点非常好,因为我们的实验室现在也正在做一些类似的把生物和我们的社会网络结合起来的工作,比如说某一种寄生虫会更加容易地去寻找宿主。所以如何去就比较定量化的研究生物和社会网的关系,这是一个非常有意思的课题。当然我们本身对这方面的涉猎并不是特别多,但是我们的实验室确实正在做这样的一个工作,可能未来几年会有一些新的进展,这是非常有意思的一个题目。
张江:好,谢谢我们的所有嘉宾,然后接下来这个环节,也是可能最能体现我们俱乐部的一个口号,叫做“打造一个中国的没有围墙的研究所”的环节。所以,接下来就邀请我们的现场观众来进行提问互动。
观众1:首先先感谢施博士今天带来的演讲,我是一名清华在读的博士生,研究的课题是基于网络来研究城市科学。正如您刚才讲的,如果是机器人在中间加10%的干扰,并且在中间位置会对整个社会比较好,那么在社会学中是否有相似的规律?比如说在团队合作的过程中,我的这个leader应该加什么样的信息或者什么样的干预来使这个协调能做的比较好?然后我的第二个问题就是我们这个大数据有了以后,它更大的意义是对社会学已有的定律进行验证还是可能研发出一些新的社会研究?
施永仁:大数据对社会科学带来的最大冲击就是我们有更多的思路去寻找新的问题,不仅仅局限于以前的社会学里面固有的一些问题。当然这个新的问题的话也是有很大的局限性的,因为我们的数据其实并不是很完备,只是有一个非常简单的某一个层面上的数据。比如说我们用亚马逊平台数据做研究的话,我做出来的研究的结论和我们线下的生活这个可能是完全不一样的,所以在这种情况下我们可能会去思考一些新的在虚拟世界里的网络在互联网上面的这种新的社会系统里面,会有什么样的新的问题。所以我觉得这是新的挑战,特别是对于传统社会学家来说,这是一个完全新的世界,需要有新的认知和新的领悟。
观众2:大家好,我是华南理工大学科技哲学专业的研究生,然后比较关注的是AI就是人工智能跟其他科学之间的联系这方面的内容。刚才施博士在讨论问题的时候主要是把人工智能当做工具引入了社会学里,然后来推动自己社会学的发展。我想问一下施博士社会学对人工智能的发展有什么可借鉴的东西吗?
施永仁:因为人类智能之所以能够发展为今天的样子,很大程度上是因为人类的这种社会交互能力。在这个过程中,我们的智能有很大的发展。我觉得对于人工智能,社会学的一个可能值得借鉴的地方就是如何让比如一群机器人自己相互学习,如何让它们去建立一个适合它们的社会,一个人工社会。这方面可以参考马文·明斯基的书《心智社会》。
人类已经全面进入了智能社会,以人工智能为代表的新一代技术必将逐步渗透到我们的日常生活之中,并彻底改变我们的社会形态。那么,新一代的人机共生社会需要怎样的社会科学?社会科学的研究成果又如何促进人工智能的发展?人工智能会怎样影响人类社会?社会科学研究又如何借鉴人工智能领域的最新成果?
我们认为挖掘AI与社会领域有想法的年轻学者,促进AI与社会原创思想的交流与碰撞是探索、回答这一系列重大问题的第一步。因此,共同打造了“AI&Society”的系列学术沙龙活动。我们真诚地希望有想法的学者能够涌现而出,并真正形成跨学科的思想碰撞。 与集智俱乐部
该系列沙龙以线下实体活动为主,我们将邀请AI与社会领域的交叉研究学者进行公开性的讨论与思想碰撞。沙龙的主题可涵盖但不限于如下的内容和主题:
计算社会科学(Computational Social Sicence)
社会计算(Social Computing)
多主体系统(Multi agent systems)
算法经济学(Algorithm Economy)
人工智能社会学(Artificial Intelligence Sociology)
群体智慧(Swarm Intelligence)
人类计算(Human Computation)
机器学习(Machine Learning)
技术与人类社会(Technology and Human Society)
人工智能与城市科学(Artificial Intelligence and Urban Science)
该沙龙已经在上海、深圳举办了两期精彩的线下活动
AI&Society第一期
AI&Society第三期
颠覆性创新一百年:来自大学、公司、与互联网社区的大数据观察
报告简介:
人类的技术和科学发展史,常常面临重大转型。每一次重大转折中,都会出现致“颠覆性创新”的团队或者个人,其贡献的知识或者技术,不是沿着既有技术发展,而是冒着巨大风险开辟了新的方向。随着新的方向逐渐树立,小团队成长大为团队,年轻成员成为资深专家,他们获得原来越多的资源和注意力,要维持越来越多的合作关系,工作日程日趋繁忙,思想决策却日趋保守,形成又一轮的技术锁定,等待着新一轮技术突破的产生。报告分析了Web of Science数据库中在一百年(1915-2015)中记录的四千五百万论文团队,美国专利数据库中在四十年(1975-2015)中记录的五百万专利团队,和GitHub数据库在四年中记录的一千五百万开源代码团队,揭示了团队规模及成员分工对团队创新能力的影响。研究发现,小团队经常以小博大,以慢制快,来实现颠覆性创新。
相关论文:https://arxiv.org/abs/1709.02445
三篇引用量类似,却有着非常不同的“颠覆程度”的论文
主讲人介绍
吴令飞:芝加哥大学社会学系博士后,研究兴趣是组织创新与学习。通过使用数学模型和机器学习方法,通过研究来自科学界(例如Web of Science 和 ORCID数据)、工业界(例如美国专利数据)、和互联网众包社区(例如Stack Exchange 和 GitHub)大量团队的人员结构与产出的关系,报告人致力于寻找组织创新与学习的一般规律,促进组织管理和政策制定。
2013年从香港城市大学获得传播学博士学位。博士最后一年曾在百度推荐与个性化部作为算法工程师实习生。在到芝加哥大学前曾在亚利桑那州立大学人类行为、制度与环境研究中心担任博士后研究员两年。
报告信息
主办方:腾讯研究院S-Tech工作室、集智俱乐部
时间:2017年12月24日上午9:00-17:30
地点:腾讯研究院(北京)
日程:
08:30-09:00签到
09:00-10:00报告
10:00-10:30Q&A
10:30-10:40休息
10:40-11:40讨论
11:40-13:30午餐
13:30-17:30workshop
AI技术追踪
每位讲者20分钟
-
唐乾元:生物进化与多任务学习
-
尹相志:人工智能新零售
-
王晓:社会机器
-
史雪松:深度学习与智能机器人
-
侯月源:揭秘彩云小译
-
谷伟伟:复杂网络中的深度学习
-
龚力:图像增强与超分辨率重建
报名方式:扫码或者点击阅读原文,此次报名为审核通过制,仅50个名额,请认真填写报名信息,确保我们可以联系上您。
推荐阅读
集智QQ群|292641157
商务合作|zhangqian@swarma.org
投稿转载|wangting@swarma.org
◆ ◆ ◆
搜索公众号:集智俱乐部
加入“没有围墙的研究所”
让苹果砸得更猛烈些吧!
始发于微信公众号: 集智俱乐部