Yes, We KAN! MLP out！一作刘子鸣直播解读全新神经网络框架KAN

摘要

MIT在读博士生、集智俱乐部AI+Science读书会发起人之一刘子鸣，最近作为第一作者共同提出了——KAN（Kolmogorov-Arnold Networks）框架。这项工作颠覆了机器学习传统的多层感知机（MLP）架构，不仅在理论上拓展了深度学习模型的边界，更在实际应用中展现出了卓越的性能和解释性。

刘子鸣受邀于北京时间5月11日20:00-22:00，在集智AI+Science读书会中深入解读KAN的主要工作。他将分享KAN模型的灵感来源以及思考过程，并讨论KAN模型对未来深度学习模型发展的潜在影响，以及在AI+Science领域的广阔前景。

论文速递：Yes, We KAN!

戴希楠（复旦大学信息科学与工程学院一年级博士生） | 作者

论文题目：KAN: Kolmogorov–Arnold Networks

论文地址：https://arxiv.org/html/2404.19756v1

1900年，在国际数学家大会的巴黎演讲中，希尔伯特（David Hilbert）曾提出了23个对数学发展至关重要的问题。Kolmogorov-Arnold表示定理正与其中的希尔伯特第13问题密切相关。该定理指出，如果f是任意一个定义在有界域上的多变量连续函数，则该函数可以表示为有限数量的单变量、连续函数的两层嵌套叠加的形式。

这表明真正的多元函数是一种求和，所有多元函数都可以通过对单变量函数求和的方式得到。从神经网络作函数拟合的角度看，这意味着对任一高维多变量函数的学习最终都可以被归约为对一组单变量函数的学习。

受到Kolmogorov-Arnold表示定理的启发，研究成员期望参数化Kolmogorov-Arnold表示，将该想法显式嵌入神经网络的设计之中。他们提出KANs（Kolmogorov-Arnold Networks, KANs）作为传统多层感知机（Multi-layer perceptrons, MLPs）的有力竞争模型。相较于传统的MLPs在节点（神经元）上使用固定的激活函数，KANs在边（权重）上采用可学习的激活函数。

基于Kolmogorov-Arnold表示定理的基本思想，KANs网络中创新性采用B样条曲线来参数化表示定理中的每个单变量函数。其中B样条是一种局部、分段的多项式曲线，其系数是可学习的。为了将网络推广到任意宽度和深度，而非局限于内、外部函数对应的两层非线性层和一个隐藏层，研究人员进一步提出了更一般的定理版本作为模型构建的理论指导。同时，受MLPs层叠设计的启发，通过堆叠带有可学习参数的一维函数矩阵构成的KAN层，拓展了KANs模型的深度，同时保持了网络较好的可解释性和表达能力。

研究通过丰富的实验设计证明了KANs模型的优越性。结果显示，KANs相比传统的MLPs拥有更好的参数效率、更强的表达能力，独到的模型设计显著增强了实验结果的准确性，使注入领域知识和归纳偏置变得容易，加上符号公式的组合构建能力和交互性设计使可解释验证得以做到，由此进一步增强了模型的可解释性。值得一提的是，研究针对KANs在数据量和模型参数量层面的神经标度率（scaling law）进行了详尽的讨论。在五个玩具案例中，KANs比MLPs有着更快的标度变化速度。在求解偏微分方程任务中，KANs也展现出更快的收敛速度、达到更低的损失，并有着更陡峭的标度率表现。

在拟合特殊函数任务中，KANs在所有特殊函数对比中展现出比MLPs更好的帕累托前沿（Pareto Frontier）。而且，借助样条设计的局部性天然优势，KANs可以在新数据上实现持续学习（continue learning），规避了机器学习中存在的灾难性遗忘（catastrophic forgetting）问题。此外，令人震惊的是，研究人员使用仅有200参数量的KANs就成功复现了Deepmind在《Nature》杂志上发表的基于30万参数量MLPs发现扭结理论（knot theory）数学定律的研究工作。并且KANs能发现与代数和几何扭结不变量相关的全新关系，同时给出一定的解释，而无需像MLPs一样进行特征归因的后期分析。在物理研究方面，KANs在凝聚态物理中的一种相变——Anderson局域化的问题上展现出了出色的相变边界发现能力，说明了该模型在物理研究领域也具备强大的应用潜力。

这项研究为未来可解释模型设计开辟了新的思路，并为我们展示了KANs模型广阔的应用前景。有了KANs的支持，对于科学工作者而言，快速、准确地发现大量科学数据中新的规律和趋势将变得更加容易。其强大的符号公式组合构建能力、可视化功能和优秀的交互性设计也有助于揭示”黑盒”数据处理流程的真相，增加实验结果的可解释性。因此，KANs无疑将成为赋能Science研究的重要AI工具，并推动科学研究加速向AI+Science范式进行转变。更多的潜在研究价值和应用的可能性有待进一步探索和挖掘。

一作直播解读：

KAN: Kolmogorov-Arnold Networks

主讲人简介：

刘子鸣，麻省理工学院（MIT）物理系博士生，导师是 Max Tegmark。2020年从北京大学获得物理学士学位。他的研究兴趣在AI和物理的交叉：一方面AI for Physics，利用AI工具自动化物理规律和概念的发现；另一方面Physics for AI，利用物理启发构建AI理论和更具可解释性的模型。个人主页：https://kindxiaoming.github.io/

分享大纲：

论文深度解读

论文一作解读：刘子鸣博士将直接根据论文原文，逐章深入讲解KAN的理论基础、模型架构和实验结果。
背后的思考逻辑和想法：分享KAN模型的灵感来源，以及如何从Kolmogorov-Arnold表示定理中汲取思想，构建出具有强大表达能力和解释性的神经网络。

衍生研究方向

探讨KAN模型在数据拟合、偏微分方程求解等领域的应用潜力。
讨论KAN模型对未来深度学习模型发展的可能影响，以及它在AI+Science领域的广阔前景。

参与方式：

直播时间：

2024年5月11日晚上8:00-10:00。

参与方式：

扫码参与AI+Science读书会，加入群聊，获取系列读书会回看权限，成为种子用户，与社区的一线科研工作者与企业实践者沟通交流，共同推动多智能体这一前沿领域的发展。

参考资料

Ziming Liu, Yixuan Wang, Sachin Vaidya, et al. KAN: Kolmogorov-Arnold Networks. arXiv:2404.19756, 2024

Paper: https://arxiv.org/abs/2404.19756

Github: https://github.com/KindXiaoming/pykan

Documentation: https://kindxiaoming.github.io/pykan/

斑图地址：https://pattern.swarma.org/paper/bfba8482-0849-11ef-8229-0242ac170005

AI+Science 读书会

AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。一方面是 AI for Science，机器学习和其他 AI 技术可以用来解决科学研究中的问题，从预测天气和蛋白质结构，到模拟星系碰撞、设计优化核聚变反应堆，甚至像科学家一样进行科学发现，被称为科学发现的“第五范式”。另一方面是 Science for AI，科学尤其是物理学中的规律和思想启发机器学习理论，为人工智能的发展提供全新的视角和方法。

集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖（Jure Leskovec 教授指导）、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣（Max Tegmark 教授指导），共同发起以“AI+Science”为主题的读书会，探讨该领域的重要问题，共学共研相关文献。读书会已完结，现在报名可加入社群并解锁回放视频权限。

详情请见：

人工智能和科学发现相互赋能的新范式：AI+Science 读书会启动

人工智能与数学读书会

数十年来，人工智能的理论发展和技术实践一直与科学探索相伴而生，尤其在以大模型为代表的人工智能技术应用集中爆发的当下，人工智能正在加速物理、化学、生物等基础科学的革新，而这些学科也在反过来启发人工智能技术创新。在此过程中，数学作为兼具理论属性与工具属性的重要基础学科，与人工智能关系甚密，相辅相成。一方面，人工智能在解决数学领域的诸多工程问题、理论问题乃至圣杯难题上屡创记录。另一方面，数学持续为人工智能构筑理论基石并拓展其未来空间。这两个关键领域的交叉融合，正在揭开下个时代的科学之幕。

为了探索数学与人工智能深度融合的可能性，集智俱乐部联合同济大学特聘研究员陈小杨、清华大学交叉信息学院助理教授袁洋、南洋理工大学副教授夏克林三位老师，共同发起“人工智能与数学”读书会，希望从 AI　for　Math，Math　for　AI 两个方面深入探讨人工智能与数学的密切联系。读书会已完结，现在报名可加入社群并解锁回放视频权限。

详情请见：

人工智能与数学读书会启动：AI for Math，Math for AI

点击“阅读原文”，报名读书会

Yes, We KAN! MLP out！一作刘子鸣直播解读全新神经网络框架KAN

论文速递：Yes, We KAN!

一作直播解读：

KAN: Kolmogorov-Arnold Networks

主讲人简介：

分享大纲：

参与方式：

直播时间：

参考资料

CHAOS：混沌的故事丨陈关荣

AI与管理：创造性问题解决与员工能力增强丨周日直播·AI+Social Science读书会

发表评论点击这里取消回复。

重磅系列课程：控制科学前沿理论与方法

第三代人工智能技术基础课程

范畴论入门系列课程

复杂系统入门与实战（Python）

热门浏览

深度学习解决计算量子化学基本问题，探索物质与光如何相互作用

Nat. Commun.速递：多任务神经网络预测多体量子态物理性质

爱因斯坦和固体量子论：还原与演生的两条道路

Nature 封面报道“连接组学”里程碑：果蝇脑的第一个完整图谱 FlyWire

长序列预测 & 时空预测万字长文：一文带你探索多元时间序列预测的研究进展！

最新文章

张江：为什么规模法则是解读世界的重要工具？

霍普夫和他的分岔理论丨陈关荣

博弈论LLM：智能体博弈能力升级策略丨周日分享·大语言模型与多智能体系统读书会

具身智能读书会启动：走向现实世界的下一代AI系统

Koopman 算符理论简介｜入门路径

Yes, We KAN! MLP out！一作刘子鸣直播解读全新神经网络框架KAN

论文速递：Yes, We KAN!

一作直播解读： KAN: Kolmogorov-Arnold Networks

主讲人简介：

分享大纲：

参与方式：

直播时间：

参考资料

微信扫一扫,分享到朋友圈

CHAOS：混沌的故事丨陈关荣

AI与管理：创造性问题解决与员工能力增强丨周日直播·AI+Social Science读书会

猜你喜欢

张江：为什么规模法则是解读世界的重要工具？

霍普夫和他的分岔理论丨陈关荣

博弈论LLM：智能体博弈能力升级策略丨周日分享·大语言模型与多智能体系统读书会

具身智能读书会启动：走向现实世界的下一代AI系统

Koopman 算符理论简介｜入门路径

理解复杂系统的第一步：理解非线性动力学 | Koopman分析系列课程

发表评论 点击这里取消回复。

重磅系列课程：控制科学前沿理论与方法

第三代人工智能技术基础课程

范畴论入门系列课程

复杂系统入门与实战（Python）

热门浏览

深度学习解决计算量子化学基本问题，探索物质与光如何相互作用

Nat. Commun.速递：多任务神经网络预测多体量子态物理性质

爱因斯坦和固体量子论：还原与演生的两条道路

Nature 封面报道“连接组学”里程碑：果蝇脑的第一个完整图谱 FlyWire

长序列预测 & 时空预测万字长文：一文带你探索多元时间序列预测的研究进展！

最新文章

张江：为什么规模法则是解读世界的重要工具？

霍普夫和他的分岔理论丨陈关荣

博弈论LLM：智能体博弈能力升级策略丨周日分享·大语言模型与多智能体系统读书会

具身智能读书会启动：走向现实世界的下一代AI系统

Koopman 算符理论简介｜入门路径

关注我们的公众号

一作直播解读：

KAN: Kolmogorov-Arnold Networks

发表评论点击这里取消回复。