集智

导语

也许你在微博上只是浏览从不发言,也许你已经把所有微博都删掉了,但不要以为这样就可以完全隐身。最近的一项研究表明,仅仅通过用户几位好友的历史推文,就可以在相当高的程度上,预测该用户的后续推文(当然研究者用的是 Twitter 数据)。

自己不发言可以,但你管得了朋友们吗?

一些人在社交网络上有很多好友,但从不发言。他们以为只要保持沉默,就可以避免被陌生人窥探、被大数据捕捉分析。这种想法太乐观了。

2019年1月,一篇发表在 Nature Human Behaviour 的论文发现,仅仅通过分析线上好友的推文数据,特别是其中的互动,就有可能预测一个人在社交媒体上未来的行为。

论文题目:Information flow reveals prediction limits in online social activity

论文地址:

https://www.nature.com/articles/s41562-018-0510-5

论文作者 Bagrow,Liu 和 Mitchell 来自美国佛蒙特大学佛蒙特复杂系统中心。通过分析上万名 Twitter 用户及其好友的数据,研究者发现:对用户行为的预测准确率存在上限(64%),不过仅仅利用好友们的推文数据,就可以达到预测上限的95%。

这意味着即使你从不发推文,但通过分析你的好友,就能预测出你是怎样的人。而且如果朋友在推文中@了你,或者你在朋友推文下面有互动留言,那么预测会更准确!

甚至,只需要使用9个好友的推文数据来做分析,对你下一条推文做预测,就比用你个人历史推文数据来预测还要准确!

删号一了百了?好友们还记着你

集智

线上社交中,有单向联系,有双向联系

在 Twitter、微博、Facebook等社交媒体中,用户之间通过评论、回复和@等方式互动。如上图所示,有一些是单向的行为,有些是双向的互动。大量的个人信息就隐藏其中。

集智

个人的社会关系展现了“影子用户”的身份信息

虽然用户随时可以选择离开一个社交网络,并且删除所有的个人信息,成为一个“影子用户”,但是曾经好友们写下的帖子仍然会保留,除非好友们也把推文全部删除。

即使你把个人主页删得空空如也,完全弃用,通过你好友们的推文,以及其中你们的互动,依然可以推测出你的特征属性。

研究者以927个用户为研究对象,找出分别与他们每个人最常联系的14位好友,从而构建起包含13905名 Twitter 用户和30852700条公开推文的数据集。

研究者们构建了927个小社交网络,每个社交网络上有15个节点。他们首先计算了推文内容的不确定性(用信息熵衡量),再换算为用户发帖行为的可预测性(predictability),从而量化分析“用户推文可预测性”及其影响因素。

这里的可预测性,并非计算机的预测准确率,而指的是算法预测能力的上限。如果可预测性是50%,那意味着使用最好的算法来做预测,准确度最高能达到50%。

研究一个人,8位好友数据就够了

研究者使用了三种数据分别做研究:

  1. 只使用某个用户的推文数据

  2. 只使用某个用户的好友的推文数据

  3. 同时使用某个用户的推文数据和该用户的好友的推文数据

整体来看,使用越多的好友数据,用户未来行为的可预测性越高。

如果只选取用户自身的推文数据,则用户推文的平均可预测性是53.8%,即图中的黑色基准线。

蓝色线表示,当同时使用某用户自身推文数据和好友推文数据进行预测时,该用户推文的可预测性最高,可以达到60%左右。而且随着采样好友数量的增加,可预测性会缓慢增强。

集智

采用不同数据时,用户推文行为的可预测变化。蓝色线的起点是在黑色基准线上。

但如橙色线所示,即使仅仅基于好友推文数据,计算出来用户推文的可预测性,也已经高于随机社交网络关系(浅灰)、特定推文时刻(深灰)这两种控制条件。这意味着,用户好友推文数据中,蕴含着大量可供预测用户行为特征的有效信息。

如果选用包含某位用户8位好友的数据,那么该用户推文的可预测性可以达到53.8%的对比基准线。而如果使用某用户9位以上好友的数据,则该用户推文的可预测性会超过基准线。

这意味着,即使你的推文列表空空如也,你的好友们一样会暴露你的特征信息、推文习惯,而且8个好友就够了!好友推文中蕴含的与你有关的信息,可能比你自己推文列表中的个人信息还要多。

用户推文可预测性存在上限

再高明的预测手段,都无法做100%准确的预测。对用户来说,他们未来推文的可预测性存在极限。

集智

采用不同数据时,用户推文行为的可预测变化,右上角为好友数量趋于无穷时,可预测性的极限值。

当好友数量非常多,趋于无穷时,仅仅基于好友推文数据的“用户推文可预测性”会有60.8%的上限,而基于用户和好友推文数据的“用户推文可预测性”,上限是64%。

当然人不会有无穷多的朋友,认知上限决定了一个人最多只能拥有150位联系紧密的朋友。基于用户150位好友的推文数据,“用户推文可预测性”可以达到60.3%,如果加上用户本人的历史推文数据,可预测性将会达到63.5%。

集智

根据邓巴数理论(Dunbar’s number),一个人的熟人数量上限是150人,本研究中选取了其中最常联系的14个好友,实际研究时把用户自身也作为一个好友处理。

大V好友,反而不会暴露朋友信息?

不过这项研究表明,如果你有一个大 V 朋友,那 Ta 泄露你个人信息的风险,比其他普通朋友泄露你信息的风险要低。

原因可能是,对于用户 A 来说,他最常联系的14位朋友中有一位是大 V,但对这位大 V 而言,用户 A 未必是他的14位最常联系的好友之一。

集智

分析13905位用户数据,得到其联系人数量的频数分布直方图

这927个社交网络的13905人,有各种各样的社交地位:他们中大部分是有一两百位联系人的普通用户,而少量的社交达人,可以有上千个联系人。

如果只选取用户一位好友的数据,能否预测该用户的行为呢?

研究者在研究这927个社交网络的中心用户时发现,在仅仅选取用户某一位好友的推文数据作为依据时,该用户行为可预测性有30%左右。但是选取不同的好友数据,对“用户推文可预测性”的影响很大。

集智

用单一好友的数据研究某用户推文可预测性时,该好友不同社交地位对该用户推文可预测性的影响

如果选取的这位好友是社交达人,联系人数量很多,那么计算出来的“用户推文可预测性”就很低。如果选取的这位用户好友是普通用户,只有一两百人,甚至几十人时,计算出来的“用户推文可预测性”就很高。

其实这一点很容易理解,如果你的某一位好友本身是社交达人,那 Ta 投放在你身上的注意力一般不会太多,你在 Ta 的推文中不会经常出现。所以,大V 好友反而不会暴露你的个人信息。

如果互联网的数据打通

也许将再无隐私可言

每个人都在社交网络上生活,在享受与朋友沟通、获取信息的便利的同时,也在承担着隐私泄露的风险。

虽然在这项研究中,根据历史推文内容预测后续推文,可预测性有60%左右的上限,但研究者对具体推文信息的研究目前还不够深。根据社交网络上好友的属性,科学家们已经可以比较准确地猜测出用户的宗教信仰、朋友关系、常去地点,甚至是性取向。所以这项研究还有更进一步的空间。

目前,几位研究者正在谋求从 Facebook 和 Google 等不同平台上获得用户的公开推文信息,他们未来的计划是,通过好友推文内容,从多个维度上构建起用户的特征,并提供实际预测的案例。

如果能够同时获得某一用户在多个社交媒体平台上的数据,那么建立起一个人完整清晰的网络形象,也不再是难事。

一面微博,一面朋友圈,但如果互联网公司们的数据打通,那么,你将会以怎样的形象出现在朋友面前呢?

细思极恐。

集智

参考资料:

https://www.nature.com/articles/s41562-018-0513-2

https://www.nature.com/articles/s41562-018-0510-5

作者:Elena

审校:李周园

编辑:杨清怡

推荐阅读

网络科学“支配”下的网游玩家行为模式

为什么有的人微信好友5000而你只有500?

如何根据社交网络识别极端恐怖组织的形成?

Nature:你的好友列表里潜伏着多少机器人?

加入集智,一起复杂!


集智

集智俱乐部QQ群|877391004

商务合作及投稿转载|swarma@swarma.org

搜索公众号:集智俱乐部

加入“没有围墙的研究所”

集智

让苹果砸得更猛烈些吧!

原文始发于微信公众号(集智俱乐部):集智