导语


在动态变化的在线社交网络中,信息传播的路径与用户参与行为往往难以预测。传统研究多聚焦于信息级联的最终规模或早期爆发潜力,然而如何精准预测用户在信息传播下一阶段是否会从“倾听者”转变为“传播者”,仍是一个开放性问题。《IEEE Transactions on Network Science and Engineering》最新发表的论文《Predicting Participation Shift of Users at the Next Stage in Social Networks》提出了基于三排序 ( Triple Ranking, TR)的无监督预测模型,通过整合用户的社交影响力、时间属性和级联相似性,显著提升了用户传播状态的预测性能。该模型在三个真实推特数据集上的实验表明,不仅预测性能超越现有最优算法,而且计算复杂度更低,为社交网络行为分析提供了高效工具。


关键词:社交网络、信息传播建模、用户行为预测

图片

张毅超丨作者



论文题目:Predicting Participation Shift of Users at the Next Stage in Social Networks

论文链接:https://ieeexplore.ieee.org/document/10829773


最近由同济大学的张毅超教授及其团队领衔的研究,提出了一种创新的无监督三排序 (TR)模型,旨在解决社交网络中用户下一阶段传播状态的预测问题。该模型结合社交引力排名 (Social Gravity Ranking)、曝光时间排名 (Exposure Time Ranking)和级联相似性排名 (Cascade Similarity Ranking),多维度地从社交影响力、级联中的时序和位次信息对用户的传播特征进行刻画,提升了模型预测的准确性和可解释性。


具体来说,社交引力特征对社交网络上用户间的信息传播影响力进行了建模,在刻画了邻域子图的结构信息的同时也显著降低了计算复杂度。曝光时间特征则是提出了“曝光时间”的概念,通过对信息级联中用户传播行为时间差分布的统计,捕捉了不同信息级联在传播过程中的复杂时序特征。此外,级联相似性特征则是参考 DeepWalk [1]将图节点映射到低维向量空间的向量化建模思路,利用级联中已参与传播的用户序列为每个用户学习级联嵌入表示,使得经常出现在级联中相近位置的用户在向量空间中的距离也更近,充分地挖掘了信息级联中的位次信息。


此外,本研究提出了一种基于排序融合的无监督信息传播者预测算法,基于上述三种时空特征从不同的角度分别计算候选者的排序,最后通过加权求和获取候选者的最终排序。在最终排序中位次靠前的候选者将被预测为下一阶段传播的参与者。这种排序融合的方式能够避免三种特征在量纲上差异给融合带来的困难,并显著提升模型的预测性能。


实验部分在三个真实的信息传播数据集上对用户在不同阶段的信息传播状态进行了预测。结果表明,该模型的预测性能要优于基线模型,并且计算复杂度也显著低于现有的基线模型。


本研究为后续信息传播建模研究提供了一个具有良好可解释性且高效的模型,所提出的社交引力、曝光时间、级联相似性等概念为网络节点间影响力的度量提供了全新的视角。





1. 研究背景与动机




信息在社交网络中的传播往往呈现复杂的时间与空间特性。用户从“接收信息”到“主动传播”的转变 (即从“听众”转变为“参与者”)受到社交关系、级联时序和位置关系的共同影响。现有方法多依赖监督学习或简化假设的经典传播模型,难以有效捕捉多源特征间的非线性关联。此外,在数据稀疏时,模型的预测性能会显著下降。本研究提出的三排序模型,通过无监督方式融合社交网络的拓扑结构、级联的时间模式及用户行为序列的隐含级联位次关联,为解决冷启动问题提供了新思路。





2. 三排序模型的核心算法




图 1 展示了本研究提出的三排序传播者预测模型的总体框架。首先,本研究创新地在社交网络信息传播场景下提出了三种时空特征,即话题偏好相似性特征、社交引力特征、曝光时间特征、以及级联相似性特征。这些特征分别对用户在级联传播中的话题偏好、社交影响力、级联中的时序和位次信息进行了细粒度的刻画。


图 1:基于三排序的传播者预测模型框架。

2.1 社交引力特征


受牛顿万有引力定律启发,本研究对社交网络上用户间的信息传播影响力进行显式建模。具体而言,对于一个未参与传播的用户𝑣和一个已参与传播的用户u,我们定义社交引力



其中image.pngimage.png分别表示用户𝑣和用户u的出度与入度,𝑑(𝑢, 𝑣)为两用户间的最短路径距离,𝜏为距离衰减系数。𝜏控制了用户𝑣的高阶邻居 (在有向图中代表 的多跳父系节点)image.png 对𝑣的影响力大小;如果𝜏很小,那么高阶邻居对节点𝑣的社交引力随距离的衰减就会很小,也就意味着高阶邻居的影响力是不可以忽略的;反之,如果𝜏很大,那么高阶邻居对中心节点的影响力衰减就会很大,也就意味着高阶邻居的影响力可以忽略不计。


在得到了社交引力𝐹𝑢,𝑣 之后,我们可以计算用户𝑣的社交引力得分𝐹𝑣 :



其中Θ𝑙(𝛾)表示参与第𝑙 个时段下级联𝐷𝐶𝑙(𝛾)的用户集合,这里image.png表示对𝑣施加影响力的用户集合是𝑣 的 跳邻域内已参与传播用户。


2.2 曝光时间特征


在社交网络中,关注者能够接收到被关注者发布的信息;但通常不同的关注者接触并转发原始推文的时间间隔是不同的。


图 2:曝光时间特征的计算示例。


基于此,本小节统计了同一个信息级联上不同用户的“曝光时间”值,将统计得到的概率分布作为用户参与传播的概率随时间变化的表征。换句话来说,对于一个初始用户𝑢和一个未参与传播的用户𝑣,若用户𝑢在用户𝑣的邻居集合𝑃𝑣 (在有向图中𝑢 为𝑣 的父系节点)中;定义从初始用户𝑢到候选用户𝑣之间的“曝光时间”为𝑡𝑣 − 𝑡𝑢,那么用户𝑣在级联𝐷𝐶𝑙(𝛾)中的曝光时间总和image.png为:



这里Θ𝑙(𝛾) ∩ 𝑃𝑣表示对𝑣施加影响力的用户集合是𝑣的邻居 (在有向图中为父节点)中已参与传播的用户。


图 2-1 和图 2-2 分别给出了为已参与传播用户𝑣𝑖和未参与传播用户𝑣𝑗计算其曝光时间总和的示例。具体来说,对于已参与传播用户𝑣𝑖,他有两个已参与传播邻居𝑢1和𝑢2,他们的参与传播时间分别是image.pngimage.png,那么𝑣𝑖 的曝光时间总和是:image.png=11 + 37 = 48。而对于未参与传播用户𝑣𝑗, image.png= 11 + 76 = 87。


我们可以基于信息级联𝐷𝐶𝑙(𝛾)中所有初始已参与传播的用户,统计这个级联上曝光时间总和的概率分布image.png。这个分布特征很好地刻画了这个级联在信息传播过程中的时序规律。接着,对于所有未参与传播的候选用户,我们参照上述公式计算他们的曝光时间总和image.png ,然后根据image.png分布得到这一曝光时间总和对应的概率值,这个概率值也就是本小节提出的曝光时间特征。


这个概率值也从另一个角度反映了候选用户的曝光时间总和与已参与传播用户曝光时间总和的相似程度;如果这个概率值很大,说明这个候选用户在信息传播过程中的时间差异特征和大部分已参与传播用户的时间差异特征很相似,这意味着他很有可能在下一个时段参与该信息级联。


2.3 级联相似性特征


在信息传播过程中,用户之间的影响并不总是通过直接的关注关系施加的,也会有外源性的因素[4]对彼此不是关注关系的用户甚至是非连通的用户施加影响。首先,将信息级联中的用户序列作为输入。接着,使用 One-hot 编码将这些用户 ID 映射为嵌入向量𝜋𝑣,并使用 Skip-gram 算法学习用户的级联嵌入表示。类比在自然语言处理中,Skip-gram 算法通过学习句子中词与词之间的上下文关系来学习词向量,这里我们通过学习用户与用户间在信息级联中的前后位次关系来学习用户的级联嵌入表示。


在得到了用户的级联嵌入表示后,我们可以计算用户𝑣和用户𝑢之间的级联相似性image.png。接着,我们可以计算用户𝑣的级联相似性分数𝐶𝑆𝑣



注意,和上述两种特征不同的是,这里对𝑣 施加影响力的用户范围是𝑙时段级联中所有已参与传播的用户集合Θ𝑙,这里的𝑢与𝑣可以不连通。


2.4 排序融合算法


基于前文得到的三种特征的排序结果,分别是 SGR、ETR 和 CSR,我们可以将这四种特征的排序结果加权融合,得到最终的排序结果:


R = α ∙ SGR(τ) + β ∙ ETR + (1 − α − β) ∙ CSR,


其中,α和β分别用于控制社交引力排序和曝光时间排序的重要性程度。在得到所有候选者的排序得分R后,如果候选者v的最终排序得分𝑅𝑣处在前pa%内,模型就会预测他在下一个时段𝑙 + 1内参与该信息级联。





3. 实验验证与结果分析




表 1 展示了各基线模型 (CT、DT、GT)和三排序模型 (TR)在 Higgs 数据集的不同时段上的对比实验结果。表中分别列出了各模型在不同规模的级联测试集上的排名表 现,其中 candidates 指出了测试集中的待预测用户数量。实验结果表明本研究提出的三排序模型在所有时段的加权排名上都显著优于其他的基线模型,说明了所提出的三种时空特征建模方法与排序融合算法的有效性。同时,CT 和DT 模型的预测表现非常接近,这是因为这两个模型都是基于社交影响力的传播者预测模型,区别只是 DT 模型在计算社交影响力时引入了一个时间衰减因子。其他数据集上的对比实验结果可以参考原文中的第 VII 节。


表 1:各基线模型 ( CT、DT、GT)和三排序模型 ( TR)在 Higgs 数据集的不同时段上的对比实验结果。每一行对应一个时段上的预测结果,每一列对应了一种对比模型。每一行都用粗体标识了取得最好结果的模型。


同时,参考之前研究的做法[2],我们对三种排序的功能进行了可视化分析。图 3 展示了使用 t-SNE 对每个候选用户的特征向量降维后的结果。在图 3(a)中,我们基于候选用户的真实传播标签 (即 1 表示已参与传播,0 表示未参与传播)对其进行着色。在其余的子图中,我们根据用户不同的特征 (例如,社交引力分数)对节点进行着色。值得注意的是,为了比较本文提出的特征和常用节点重要性特征之间的差异,我们还在图 3(b)中展示了各节点 PageRank [3]的可视化结果。此时,某个特征的着色结果与子图 (a)越一致,则说明该特征对于模型的性能越重要。


基于可视化结果,不难看出:(1)图 3(a) 和图 3(b) 中的数据点被聚类成若干个团簇,每个团簇中的转发用户和未转发用户的比例是互补的。(2)图 3(d)、图 3(e)和图 3(f)中的颜色模式与图 3(a)中的正例的颜色模式一致,说明这三个特征对于预测用户的转发行为是非常重要的。因此,这些可视化结果证明了本文提出的三种排序特征在分时信息传播者预测任务上的有效性。三种特征分别从社交影响力、级联中的时序和位次信息的角度刻画了用户参与信息级联的倾向性。


图 3:t-SNE 可视化结果。图中的每个点都代表测试集中的一个用户。我们基于特征值或者标签值对这些点进行着色。红色表示较大值,蓝色表示较小值。子图上方的标题则对应了每个特征或标签的名称。





4. 结语




这项研究对信息传播领域的研究具有重要的理论和应用价值,尤其是社交影响力、曝光时间与级联相似性概念的提出给社交网络分析以及图数据相关领域的研究提供了新的视角。其次,由于三排序模型在计算复杂度上的优势,它在大规模社交网络以及需要实时反馈的下游应用中将扮演重要的角色。随着研究的深入,我们在未来的研究中将进一步整合文本内容特征与动态网络演化,探索多模态数据下的传播模型。此外,课题组计划将三排序模型的应用场景扩展至跨平台信息传播,以验证其泛化能力。


参考文献:

[1] Perozzi, B., Al-Rfou, R., Skiena, S. Deepwalk: Online learning of social representations[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. 2014: 701-710.

[2] Li, C., Ma, J., Guo, X., et al. Deepcas: An end-to-end predictor of information cascades[C]//Proceedings of the 26th International Conference on World Wide Web. 2017: 577-586.

[3] Bianchini, M., Gori, M., Scarselli, F. Inside pagerank[J]. ACM Transactions on Internet Technology (TOIT), 2005, 5(1): 92-128.

[4] Myers, S. A., Zhu, C., Leskovec, J. Information diffusion and external influence in networks [C]//Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. 2012: 33-41.



复杂网络动力学读书会


集智俱乐部联合合肥工业大学物理系教授李明、同济大学副教授张毅超、北京师范大学特聘副研究员史贵元与在读博士生邱仲普、张章共同发起「复杂网络动力学」读书会。本次读书会将探讨:同步相变的临界性、如何普适地刻画多稳态与临界点、如何识别并预测临界转变、如何通过局部干预来调控系统保持或回到期望稳态、爆炸逾渗临界行为的关键特征、不同类型的级联过程对逾渗相变的影响有何异同、高阶相互作用的影响能否等效为若干简单机制的叠加、如何有效地促进人类个体间的合作等问题。

读书会计划从3月7日开始,每周五晚19:30-21:30进行,持续8-10周。诚挚邀请领域内研究者、寻求跨领域融合的研究者加入,共同探讨。


图片


详情请见:复杂网络上的自组织与集体行为:从扩散、相变到博弈 | 读书会启动



推荐阅读
1. 前沿进展:大模型agent的社交互动涌现出无标度网络
2. Chaos 速递:社交网络中感知偏见下的意见传播级联
3. PRX 速递:为什么社交网络中存在六度分隔理论?
4. 游戏化科研——让我们突破内卷、共研涌现
5. 探索者计划 | 集智俱乐部2025内容团队招募(全职&兼职)

6. 加入集智,玩转复杂,共创斑图!集智俱乐部线下志愿者招募



点击“阅读原文”,报名读书会