“集智百科精选”是一个长期专栏,持续为大家推送复杂性科学相关的基本概念和资源信息。作为集智俱乐部的开源科学项目,集智百科希望打造复杂性科学领域最全面的百科全书,欢迎对复杂性科学感兴趣、热爱知识整理和分享的朋友加入!

今天分享网络科学领域里面PageRank算法这一主题。Google搜索依靠的强大算法,是怎样实现搜索并为其提供支撑,本文将介绍PageRank算法的基本概念,有哪些好玩的案例,知名的研究者、一些入门的学习资源。


目录


一、Google的第一桶金:PageRank算法的起源

二、PageRank算法的原理

三、PageRank算法的应用

四、知名学者推介

五、相关资源推介

六、集智百科词条志愿者招募



一、Google的第一桶金:PageRank算法的起源

PageRank算法将网页按重要性进行排序。有了这个排序,人们在搜索关键词时就能优先看到重要且优质的网页,从而更易于得到所需要的信息。


拉里·佩奇 Larry Page和谢尔盖·布林 Sergey Brin于1996年在斯坦福大学开发了PageRank算法,此后于1998年基于该算法,共同创立了Google公司。PageRank这个名字一语双关,既源于其算法创始人Larry Page,也源于网页 Web Page。


 

图1:PageRank是Google的第一个排序搜索算法

 


二、PageRank算法的原理

 

PageRank是一种基于图论的算法。它将万维网上所有的网页视作节点 node,将超链接视作边 edge。网络中的每个节点都有一个PageRank值,表示该节点的重要程度。


PageRank的设计受到学术论文引用启发。衡量一篇学术论文质量高与否,最重要的一个指标是引用次数,高引用量的论文通常意味着高质量。同理,如果一张网页被引用(加入超链接)的次数多了,那么该网页就比较重要。


PageRank的核心思想有两点(结合下图进行说明):


图2:PageRank原理示例


  • 有越多的网页链接到某个网页,则说明这个网页越重要,网页对应的PageRank值越高。例如图中的B有很多网页链接到它。


  • PageRank值高的网页链接到某个网页,则说明这张网页也很重要。例如,图中的C虽然只有一张网页B链接到它,但C的重要性仍然很高。而图中的E虽然有很多网页链接到它,但仍然不如C重要。

如何计算节点的PageRank值呢?对于网页u,其PageRank值由以下公式算出:


其中,Bu表示u连接的所有网页,c为常数,R(v)为网页v的PageRank值,Nv为网页v的链接数(度 Degree)。


PageRank算法通过输出概率分布来体现某人随机地点击某个网页的概率。在初次计算前,总概率将被均分到每个网页上,使得每个网页被访问的概率都是相同的。接下来在重复多次的计算(即迭代)中,算法将不断调整各网页的PageRank值,使得其越来越接近最终的理论值。



三、PageRank算法的应用 


PageRank算法适用于任何复杂网络相关领域。例如,它被广泛用于分析社会网络、信息网络、生物网络等,并应用在链接预测和推荐系统中。


PageRank算法成功的基础在于“注意力经济”。搜索排序顶部的网页获得更多的关注,有更大的概率进入人们的意识,从而进一步影响行为。因此,这些网页有更高的潜力能够让用户为他们的业务进行更多的付费。


图3:PageRank简单示意图


除了商业外,PageRank算法还有其他领域的应用。例如通过分析科学论文协作网络,为作者和期刊排名,量化其领域影响力。在体育运动中,PageRank 算法可以对球队或者运动员的表现进行排名。在道路规划中,Pagerank算法可以对区域或街道进行排序,以预测有多少行人或车辆来到各个区域或街道。 


此外,使用PageRank算法可以:在蛋白质相互作用网络中预测潜在的药物治疗靶点;在生态系统网络中确定对环境可持续发展不可或缺的物种;在神经网络中研究神经元的位置与其放电速率的相关性等等。


四、知名学者简介


拉里·佩奇 Larry Page

图4:Larry Page


美国计算机科学家和互联网企业家。Google创始人之一,PageRank算法发明人之一。斯坦福大学计算机科学博士学历。2019年12月,拉里·佩奇卸任Alphabet(Google母公司)首席执行官职务(CEO)。2020年4月的《福布斯》全球富豪榜中,拉里·佩奇以净资产509亿美元,排名第13。


谢尔盖·布林 Sergey Brin


图5:Sergey Brin


苏联出生的美国籍计算机科学家和互联网企业家。Google创始人之一,PageRank算法发明人之一。斯坦福大学计算机科学博士学历。2019年12月,谢尔盖·布林卸任Alphabet(Google母公司)总裁职务(President)。2020年4月的《福布斯》全球富豪榜中,谢尔盖·布林以净资产491亿美元,排名第14。


五、相关资源推荐


集智百科

PageRank算法集智百科

http://wiki.swarma.net/index.php?title=PageRank算法&variant=zh-hant

PageRank原版论文

论文题目:

The pagerank citation ranking: Bringing order to the web.

论文地址:

http://ilpubs.stanford.edu:8090/422

Larry Page与Sergey Brin合作,于1999年发表,引用超13000次。


课程


如何将PageRank算法扩展到图神经网络上

https://campus.swarma.org/course/1091


六、百科项目志愿者招募


作为集智百科项目团队的成员,本文内容由 张棋、刘世康、李媛翯 参与贡献。我们也为每位作者和志愿者准备了专属简介和个人集智百科主页,更多信息可以访问其集智百科个人主页:



以上内容都是我们做这项目的起点,作为来自不同学科和领域的志愿者,我们建立起一个有效的百科团队,分配有审校、翻译、编辑、宣传等工作。我们秉持:知识从我而来,问题到我为止的信念,认真负责编撰每一个词条。


在这里从复杂性知识出发与伙伴同行,同时我们希望有更多志愿者加入这个团队,使百科词条内容得到扩充,并为每位志愿者提供相应奖励与资源,建立个人主页与贡献记录,使其能够继续探索复杂世界。


欢迎扫描下方二维码添加负责人加入集智百科团队!



考资料


[1]PageRank 集智百科 :

http://wiki.swarma.net/index.php?title=PageRank算法&variant=zh-hans

[2]PageRank 维基百科:

https://en.wikipedia.org/wiki/PageRank

[3]PageRank 百度百科 :

https://baike.baidu.com/item/google%20pagerank/2465380?fromtitle=pagerank&fromid=111004&fr=aladdin

[4]集智学园课程

https://campus.swarma.org/course/1091


来源:集智百科

编辑:曾祥轩



推荐阅读


混沌理论 | 集智百科
分形几何:寻找隐藏的维度 | 集智百科
什么是元胞自动机?| 集智百科
什么是无标度网络 | 集智百科
如何检测社团内的嵌套结构?
加入集智,一起复杂!







集智俱乐部QQ群|877391004

商务合作及投稿转载|swarma@swarma.org

◆ ◆ 

搜索公众号:集智俱乐部


加入“没有围墙的研究所”

让苹果砸得更猛烈些吧!



👇点击“阅读原文”,阅读集智百科更多内容:算法代码实现,参与集智百科建设!