导语


计算社会科学读书会第二季第四期读书会承接上一期word embedding的内容,我们邀请到集智学园算法工程师胡乔,承接读书会第三期word embedding的内容,在进一步探索词向量的同时,重点介绍网络的embedding方法和双曲空间嵌入的方法。


计算社会科学读书会第二季由清华大学罗家德教授领衔,卡内基梅隆大学、密歇根大学、清华大学、匹兹堡大学的多位博士生联合发起,自2022年6月18日开始,持续10-12周。本季读书将聚焦讨论Graph、Embedding、NLP、Modeling、Data collection等方法及其与社会科学问题的结合,并针对性讨论预测性与解释性、新冠疫情研究等课题。读书会详情及参与方式见文末,欢迎从事相关研究或对计算社会科学感兴趣的朋友报名参加!






本期分享

与计算社会科学读书会之间的关系




embedding方法源于自然语言处理 (NLP) 技术,它将文本表示成数学向量,通过向量的运算和处理获得对文本单元的理解。embedding方法使得大规模的文本语义分析成为可能,从而扩展了计算社会科学研究中的文本分析方法。

近年来embedding方法逐渐扩展到网络分析、知识图谱等领域,embedding方法与网络分析等方法的结合,进一步扩展了其适用范围,计算社会科学的很多研究问题可以归结为人/人群的行为及其关系的研究,因而可以采用embedding方法。




本期分享与复杂系统之间的关系




对复杂系统的观察和分析可以有多个视角,embedding方法就是这样一种视角,它将一般认为不具有良好运算性质的对象(如文本)表示为向量,从而使其可计算可比较,进而通过计算发现这些对象的关系特性。embedding方法对应的隐空间(例如双曲空间)也为我们理解不同复杂系统的结构提供了一种可能的图景。




内容框架




本次分享是文献综述,涉及到如下文章:

  • 对词向量的理解和探索:
  • GloVe: Global Vectors for Word Representation
  • Word2Sense : Sparse Interpretable Word Embeddings

  • embedding方法处理科学期刊:
  • node2vec: Scalable Feature Learning for Networks
  • Neural embeddings of scholarly periodicals reveal complex disciplinary organizations

  • 双曲嵌入:介绍与应用
  • Popularity versus Similarity in Growing Networks
  • Social Centralization and Semantic Collapse: Hyperbolic Embeddings of  Networks and Text




主要涉及到的知识概念




稀疏词向量 sparse word embedding

隐空间 latent space

网络嵌入 network embedding

双曲嵌入 hyperbolic embedding




分享简介




embedding方法源于自然语言处理(NLP)技术,它将文本表示成数学向量,通过向量的运算和处理获得对文本单元的理解,以词向量为代表的embedding技术也由此大获成功。在随后的发展中,embedding方法也逐渐扩展到更多的领域,例如网络分析、知识图谱等领域也普遍采用embedding方法来表示一个节点或一个实体;另一方面,每个embedding方法都对应一个隐藏的空间,对隐空间的研究也开始引起研究者的注意,双曲空间就是其中一个案例。

本期读书会承接第三期有关word embedding的内容,首先介绍了对词向量的进一步探索,然后介绍了网络的embedding方法和双曲空间嵌入的方法。本次分享重点是方法的介绍,希望给大家的研究和工作带来启发。




分享大纲




  • 词向量续谈
    • word embedding算法简介
    • embedding与语义
  • 网络嵌入
    • node2vec介绍
    • 使用网络嵌入表示学术期刊

  • embedding与隐空间
    • 双曲空间和双曲嵌入的介绍
    • 研究示例


  



主讲人简介




胡乔,集智学园算法工程师,主要做复杂科学领域的文本分析、网络分析等算法工作。感兴趣的领域包括计算语言学,知识图谱,多主体模拟等。


参考文献

  • Abhishek Panigrahi, Harsha Vardhan Simhadri, and Chiranjib Bhattacharyya. 2019. Word2Sense: Sparse Interpretable Word Embeddings. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 5692–5705, Florence, Italy. Association for Computational Linguistics.
  • Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 2014. GloVe: Global Vectors for Word Representation
  • A. Grover, J. Leskovec. 2016. node2vec: Scalable Feature Learning for NetworksACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD)
  • Peng, H., Ke, Q., Budak, C., Romero, D. M., & Ahn, Y. Y. (2021). Neural embeddings of scholarly periodicals reveal complex disciplinary organizations. Science Advances, 7(17), eabb9004.
  • Papadopoulos, F., Kitsak, M., Serrano, M., Boguná, M., & Krioukov, D. (2012). Popularity versus similarity in growing networks. Nature, 489(7417), 537-540.
  • Linzhuo, L., Lingfei, W., & James, E. (2020). Social centralization and semantic collapse: Hyperbolic embeddings of networks and text. Poetics, 78, 101428.





直播信息




直播时间:
  • 2022年7月16日(周六)晚上20:00 – 22:00

参与方式:
  • 集智俱乐部 B 站账号免费直播,扫码可预约:

扫码预约本次直播

  • 若需要观看视频回放,文末扫码付费参加计算社会科学读书会第二季可加入腾讯会议,可提问交流、加入群聊、获取视频回放及更多学习资料,成为计算社会科学社区种子用户,与400余名计算社会科学的一线科研工作者沟通交流,共同推动计算社会科学社区的发展。



计算社会科学读书会第二季招募中


计算社会科学读书会第二季由清华大学罗家德教授领衔,卡内基梅隆大学、密歇根大学、清华大学、匹兹堡大学的多位博士生联合发起,自2022年6月18日开始,持续10-12周。本季读书将聚焦讨论Graph、Embedding、NLP、Modeling、Data collection等方法及其与社会科学问题的结合,并针对性讨论预测性与解释性、新冠疫情研究等课题。读书会详情及参与方式见文末,欢迎从事相关研究或对计算社会科学感兴趣的朋友参与。



点击“阅读原文”,报名直播