集 智 俱 乐 部 系 列 讲 座 之 “知 识 流 形”

开   讲  啦  !


集智

前方一大波知识来袭!

集智


知识流形:关于科学的科学 

Knowledge Manifold: the science of Science




集智



1
嘉宾介绍
吴令飞,政治学学士,传播学博士,现在在芝加哥大学计算中心知识实验室(Knowledge Lab, Computation Institute, University of Chicago)担任博士后研究员。研究兴趣包括复杂网络建模,互联网社区的注意力动力学,科学合作与引文网络等。在Scientific Reports,Physical Review E, PLOS ONE等杂志发表多篇论文,关于网络社区与自然生态系统结构相似性的研究被New Scientist, Science Daily的科学杂志报道。
集智
2
讲座简介
1. 回顾一系列引文网络和科学家合作的实证经典论文,讨论什么样的问题是本领域内的重要问题,前人已经得到了什么样的结论,还有哪些问题值得继续探索。
2. 介绍一个新的概念,“知识流形”(Knowledge Manifold),讨论如何在这个概念下把机器学习、知识发现与科学合作的团体动力学结合起来。
集智
3
时间地点
集智 

10月15日14:30
 20分钟回顾探讨+20分钟介绍“知识流形”+ 30分钟讨论
集智 

蕴味咖啡:北京市海淀区学清路768创意产业园(六道口地铁站往北1000米)


P.S.:讲座免费,场地方将收取20元饮料费。

集智
4
相关文献
Barabási, Albert-László, and Réka Albert. “Emergence of scaling in random networks.” science 286.5439 (1999): 509-512.
大多数复杂网络(万维网、电力网、电影演员合作网络)都有着长尾(冪律)度分布,即少数节点拥有很多链接,大多数节点只有很少链接。这种链接结构的形成,可以用“优先链接”机制解释,即每个节点进入网络时,总是更倾向于链接已经拥有很多连边的节点。这种规则的不断运行,产生了“马太效应”,使得网络初始状态随机的度差异被不断放大,最终形成长尾度分布。
Menczer, F. (2004). Evolution of document networks. Proceedings of the National Academy of Sciences, 101(suppl 1), 5261-5265.
优先链接模型并不足以完全概括引文网络的形成。一篇论文引用另外一篇论文时,不只考虑考虑后者的流行度,而且考虑后者与自己在内容上的相似性。另外,内容相似性(例如文本的cosine距离)与连边相似性(例如共有的参考文献数量和同时被第三篇论文引用的频次)是高度相关的。也就是说,可以使用连边相似性来代替内容相似性。
Wuchty, S., Jones, B. F., & Uzzi, B. (2007). The increasing dominance of teams in production of knowledge. Science, 316(5827), 1036-1039.
人类科学合作呈现一种规模化的趋势:科学团队规模越来越大,大的团队也更容易获得更多引用。
Uzzi, B., Mukherjee, S., Stringer, M., & Jones, B. (2013). Atypical combinations and scientific impact. Science, 342(6157), 468-472.
使用论文引用的期刊来衡量论文在内容上的传统/创新程度:共同出现率高的期刊对(pair)比较传统,共同出现率低的期刊对比较创新。本研究发现比较流行的论文一般来说既有传统的内容也有创新的内容。
Wang, D., Song, C., & Barabási, A. L. (2013). Quantifying long-term scientific impact. Science, 342(6154), 127-132.
引文的增长包括三个要素:1)优先链接;2)创新性;3)随时间吸引力的下降(知识传承);考虑这三个要素的模型可以对引文的增长进行高精度的预测。
Shen, H. W., & Barabási, A. L. (2014). Collective credit allocation in science.Proceedings of the National Academy of Sciences, 111(34), 12325-12330.
同一个论文会有多个作者,作者的贡献是不同的。通过考虑分析后续相关论文的作者名字出现频次,可以计算出同一篇论文作者贡献的不同程度,甚至可以预测诺贝尔奖的得奖情况。
Klug, M., & Bagrow, J. P. (2016). Understanding the group dynamics and success of teams. Open Science, 3(4), 160007.
通过Github数据研究开源社区,发现成功获得更多关注的开源项目具有以下属性:团队规模大,团队成员贡献程度非常不平均,团队成员同时参与更多不同的项目(具有不同的经验与技能)。
Milojević, S. (2014). Principles of scientific research team formation and evolution. Proceedings of the National Academy of Sciences, 111(11), 3984-3989.
数据证实,科学团队的平均规模在过去半个世纪中不断增加。团队规模的增加的动力学过程可以理解为由两个要素构成,一个是随机形成的核心团队规模,满足泊松分布,另一个是在这个基础上团队的扩张,满足冪律分布。两者结合可以解释实证数据中发现的平头冪律尾现象。
Ke, Q., Ferrara, E., Radicchi, F., & Flammini, A. (2015). Defining and identifying Sleeping Beauties in science. Proceedings of the National Academy of Sciences, 112(24), 7426-7431.

科学史上大部分论文的引用都是先达到一个高峰然后随时间迅速下降,但有一些论文,在几年甚至数十年之后突然间会获得较多关注,就像“睡美人”被唤醒一样。本文建议了一个非参数化的“睡美人”指标,并且给出了科学史上比较有名的“睡美人”论文。


编辑:wangting集智

集智让苹果砸得更猛烈些吧!

集智

长按识别二维码,关注集智Club,

让我们离科学探索更近一步。

始发于微信公众号: 集智俱乐部