新闻在注意力场中的逃逸 | 吴先生的文章
图1. 延时摄影获得的森林中的萤火虫图像。
新闻的传播过程是科学界与工业界都关注的重要问题。传统研究多关注新闻在社交网络上的传递。但是以人为节点,以人们彼此间的交互为连边的社交网络,是很容易变化的。在这个不断变化的背景上研究新闻的复制和扩散,显然不是一个非常聪明的策略。
从物理学的经典思路出发,一般来说,我们希望研究对象在一个相对稳定的空间里运动,然后我们试图刻画其运动的规律性。所以,要研究新闻的传播,我们需要假设:
-
有一个相对固定的背景空间;
-
有许多新闻,这些新闻在这个背景空间里不断运动,但所有新闻遵相同的运动方程。
那么,怎么在实际新闻系统中搜集和分析满足这两个条件的数据呢?图1关于运动中的萤火虫的照片给了我们一个启发:我们可以通过拍“快照”的方式追踪一个有多个新闻的系统。具体来说,就是给每个新闻做个标记,记录其在一个空间里的位置和时间,观察其位置如何随时间变化,再把所有的新闻运动轨迹合并到一起求出普适方程。
作为背景空间的注意力场
为了得到这个不可见的背景空间,我们把新闻作为探测器(snesor),以推测背景空间的结构。
首先,我们以新闻为节点,以用户在新闻之间的跳转为连边构造注意力流网络。与普通的带权有向网络不同,我们添加了两个人工节点,源和汇,来平衡所有其他节点上的注意力流的进出关系。源的出流和汇的入流等于全网流的总输入或者总耗散。在这个网络上做统计,我们可以研究其嵌入的背景空间结构。
图2. 一个注意力流网络的示意图。
在这个网络上,我们可以计算从源到所有节点i的流距离Li。其物理意义是,一个用户从源出发随机游走,平均抵达 i 所需步数。这个Li虽然是从离散的网络上统计得到,我们却将之视为一个连续空间上的统计,把网络看作对背景空间的抽样观测。
接下来让我们看看位于背景空间不同位置上的新闻sensor的年龄、点击量和新闻类型,看看是否能发现什么规律。
图3. 根据2009年6月10日Digg社区注意力流动构造的信息空间。节点是新闻,连边是用户在新闻之间的移动,连边越粗流量越大。根节点是源,代表外部世界的注意力总输入。我们比较了两种基于RT算法的树结构展示方式(上行以流距离为纵轴,下行以流距离为半径)和两类新闻属性的上色方式(左列颜色代表年龄,右列颜色代表类别)。
从图3可以看出,背景空间与新闻的年龄有着密切关系,而与新闻的类别没有太多关系。我们发现,年龄比较大的新闻在外围,年龄比较小的新闻在圆心。接下来,让我们看一下在不同时间拍的“快照”,以观察新闻的运动情况。
图4. 注意力网络在一个月内随时间变化。2009-06-10图对应图3,上色仍然依据年龄,但与图3略有不同。
图4向我们展示了一个清晰的物理图景:
随着时间过去,新的新闻不断从靠近源的地方“生长”出来,把所有旧新闻往外推。而由于注意力场的覆盖范围和密度不随时间变化,因此造成了随时间过去单个新闻获得注意力先增后减的固定兴衰周期。
接下来的任务就是精确描述新闻在逃逸过程中的动力学,这个动力学,就像重力本身一样,其实也是一个几何背景结构的后果。
我们追踪数据集中三千多个新闻的三个变量随时间的变化:年龄,位置(距离源的距离),点击量。具体操作方法是,我们对数据集中的36天数据,每天构造一个当日点击流网络,记录上述三个统计指标,而后添加到每个新闻的时间序列里去。
这个过程,就像是给新闻在注意力场中的逃逸过程拍一系列的“快照”,然后从快照中推测新闻动力学方程,进而得到注意力的场方程。
图6. 新闻流距离与年龄的关系。绿点数据点是在相同的天上合并L的结果,也是实际拟合中使用的数据。
我们发现,新闻的逃逸分为三个阶段。
-
快速逃逸:在被用户分享的当天(t=0),新闻流距离就到了4;第二天(t=1),新闻的流距离就到了8,第三天(t=2)流距离上升到11;
-
缓慢逃逸:比起第一个阶段,这个阶段新闻与源的距离基本不动,在三十天内缓慢从11增加到15;
-
超速逃逸:等到新闻的年龄接近一个月后,流距离突然猛涨至接近无穷大新闻年龄和流距离的关系可以用Gompertz函数拟合:
拟合曲线如图6中红线所示。
前一节的分析告诉我们,每个新闻随时间过去,在新一天的网络里出现时(如果出现的话),流距离基本都在不断增加。又因为我们知道,用户集体注意力以源为圆心,有一个覆盖范围,用户不会去点击太“远”的新闻。因此,我们就可以把新闻随年龄增加获得点击量的下降看作其在注意力场中不断运动、远离源头的自然后果。
图7. 流距离与点击量之间的关系。
我们对于每一个新闻,把它在移动中不同位置上获得的点击量除以其“一生”获得的总点击量进行归一化,然后再用它作为sensor,观察点击和流距离的关系,如图7绿色直方图所示。我们发现,随着流距离的增加,新闻获得的点击先上升后下降,在流距离约等于5处,点击量达到峰值。
在拟合流距离与点击量的关系时,我们使用Gompertz函数的一阶微分形式。为提高拟合精度,我们先拟合所有新闻总点击量在流距离上的累积数据(图6粉红色曲线),然后再给出Gompertz函数对自变量的一阶微分(图7蓝色曲线),用以描述Ct与Lt的实证关系(图7绿色直方图)。
需要注意的是,这里的C_sum与之前的t_max不同。t_max是对所有新闻都一样的,即33天。C_sum是每个新闻自己获得的总点击量,不同新闻之间是不一样的。
我们前面既然知道了新闻的漂移速度,又知道了用户注意力的场密度,就应该可以推测出在漂移过程中新闻获得注意力的变化。我们根据Eq.1与Eq.3预测新闻的年龄与点击存在如下关系
编辑:裸猿
让苹果砸得更猛烈些吧!
长按识别二维码,关注集智Club,
让我们离科学探索更近一步。
▼点击阅读英文版论文。
始发于微信公众号: 集智俱乐部