导语


复杂性怎样量化和驱动下一代AI系统是我们AI by Complexity」读书会尝试去回答的问题。在本期读书会中,邀请了ICTP徐奕舟做“结构化噪声下PCA的信息论极限”主题分享,来回答如何通过统计物理和随机矩阵理论工具,构建算法来达到信息论极限;清华钱班翁康宇做“神经网络的初始化和信息论”主题分享,来回答如何理解神经网络初始化阶段的物理规律等问题,希望从统计物理和信息论的研究视角给大家带去启发。

直播将于北京时间7月1日晚20:00-22:00线上公开进行,欢迎感兴趣的朋友参与讨论交流!






主题一:破解数据噪声难题:结构化噪声下PCA的信息论极限



内容简介

我们考虑了贝叶斯推断中的一个典型问题:主成分分析(PCA)中的低秩信号被加性结构化噪声所干扰。当噪声是独立同分布的高斯噪声时,无论是信息论极限还是算法极限都已被充分理解,然而更现实的结构化噪声情况仍然具有挑战性。为了在数学可处理的同时捕捉噪音的结构特征,我们首次刻画了一般旋转不变噪声的信息论极限,并利用了统计物理中的副本方法和随机矩阵理论中的工具,表明由Thouless-Anderson-Palmer(TAP)方程理论启发的算法可以达到该极限。这项研究可以推动AI算法在处理现实数据中的能力,构建高效的AI系统。

关键词:PCA,信息论极限,旋转不变噪声,TAP方程,副本方法

内容大纲

  1. 前置知识

    1. 主成分分析介绍

    2. I-MMSE关系与已知的渐近行为

  2. 噪声结构与数学分析

  3. 副本方法与副本对称自由熵

  4. Nishimori 恒等式和鞍点方程

  5. 自适应TAP方法

  6. 结果分析

参考文献
  1. Fundamental limits in structured principal component analysis and how to reach them, J. Barbier, F.Camilli, M. Mondelli, M. S ́aenz, Proceedings of the National Academy of Sciences, 120 (30) e2302028120 (2023)

  2. Information limits and Thouless-Anderson-Palmer equations for spiked matrix models with structured noise, J. Barbier, F. Camilli, M. Mondelli, Y. Xu, arXiv preprint arXiv:2405.20993, 2024.

  3. Random matrix methods for high-dimensional machine learning models, A. Bodin, PhD Thesis, EPFL, doi.org/10.5075/epfl-thesis-10524, 2024

  4. Adaptive and Self-Averaging Thouless-Anderson-Palmer Mean-Field Theory for Probabilistic Modeling, M. Opper, O. Winther, Physical Review E 64 5 (2001)

  5. A First Course in Random Matrix Theory: For Physicists, Engineers and Data Scientists, M. Potters, J.-P. Bouchaud, Cambridge University Press, 2020

  6. Optimality of Approximate Message Passing Algorithms for Spiked Matrix Models with Rotationally Invariant Noise, R. Dudeja, S. Liu, J. Ma, arXiv preprint arXiv:2405.18081, 2024


徐奕舟,目前是国际理论物理研究中心的研究助理,主要关注高维统计,统计物理和机器学习的交叉。




主题二:神经网络的初始化和信息论




内容简介

在深度学习中,神经网络可以视为输入数据和其潜在表示之间的含噪信道,这个视角将我们引向了对神经网络的信息传输性质的研究。我们研究发现神经网络可以在初始化时就朝最优信道发展。

在统计物理和深度学习的交叉视角下,我们的研究首先建立用于计算神经网络输入信号和中间层表征间互信息的、基于平均场假设的理论框架,并在所建立的框架中给出了临界线和动力等距点的解析表达式。不同于其他常见的理论模型中都会采用独立同分布假设,研究证明在将神经网络看作信道的情形下,独立同分布假设对于计算互信息是无效的。利用信息瓶颈理论分析,我们发现在避免独立同分布假设的情况下,可以证明输入信号与隐藏层表征间的互信息最大化点正是动力等距点。通过计算机实验,说明针对无限宽神经网络的推导也能用于有限宽神经网络。这个研究工作可能为推动深度学习在网络初始化方面的研究奠定基础,并揭示了多种深度学习技术背后的统计物理机制。

关键词:神经网络,初始化,随机信道,互信息,平均场

分享大纲

1. 基础知识

a. 随机初始化神经网络:几何角度的理论与实验结果

b. 互信息:在神经网络中的应用与测量

2. 论文解读
a. 翁康宇一作顶刊论文解读:Statistical physics of deep neural networks: Initialization toward optimal channels

参考文献

1. Weng, Kangyu, et al. "Statistical physics of deep neural networks: Initialization toward optimal channels." Physical Review Research 5.2 (2023): 023023.


翁康宇,清华大学钱学森力学班大四学生,研究范围为AI4Sci和Sci4AI,国家奖学金,北京市优秀毕业生。




直播信息




时间:2024年7月1日(周一)晚20:00-22:00

报名参与读书会:

斑图链接:https://pattern.swarma.org/mobile/study_group_issue/706?from=wechat


扫码参与AI by Complexity 读书会,加入群聊,获取系列读书会回看权限,加入AI by Complexity社区,与社区的一线科研工作者沟通交流,共同探索复杂科学与AI交叉的前沿领域的发展。


报名成为主讲人

读书会成员均可以在读书会期间申请成为主讲人。主讲人作为读书会成员,均遵循内容共创共享机制,可以获得报名费退款,并共享本读书会产生的所有内容资源。详情请见:AI by Complexity 读书会启动:复杂性怎样量化和驱动下一代AI系统



AI By Complexity读书会招募中


大模型、多模态、多智能体层出不穷,各种各样的神经网络变体在AI大舞台各显身手。复杂系统领域对于涌现、层级、鲁棒性、非线性、演化等问题的探索也在持续推进。而优秀的AI系统、创新性的神经网络,往往在一定程度上具备优秀复杂系统的特征。因此,发展中的复杂系统理论方法如何指导未来AI的设计,正在成为备受关注的问题。

集智俱乐部联合加利福尼亚大学圣迭戈分校助理教授尤亦庄、北京师范大学副教授刘宇、北京师范大学系统科学学院在读博士张章、牟牧云和在读硕士杨明哲、清华大学在读博士田洋共同发起「AI By Complexity」读书会,探究如何度量复杂系统的“好坏”?如何理解复杂系统的机制?这些理解是否可以启发我们设计更好的AI模型?在本质上帮助我们设计更好的AI系统。读书会于6月10日开始,每周一晚上20:00-22:00举办。欢迎从事相关领域研究、对AI+Complexity感兴趣的朋友们报名读书会交流!



详情请见:
AI by Complexity 读书会启动:复杂性怎样量化和驱动下一代AI系统



点击“阅读原文”,报名读书会