大模型的能力边界|周五直播·人工智能与数学读书会
导语
分享内容简介
分享内容简介
本次分享主要介绍使用范畴论刻画大模型的能力边界。首先,我们思考一个有趣的问题:假如我们有无穷多的数据,无穷大的计算能力,无穷大的模型,完美的训练算法与优化保证,那么这个模型是不是可以用来解决所有任务?这个问题不能够被已有的表达能力、优化或者泛化理论回答,因为这些理论研究的对象在这个问题中不存在了。在本次分享中,我们会看到作为现代数学的基本语言,范畴论如何用于回答这一问题。更加一般的,这一结果并不总是需要“无穷多数据”或者“无穷大算力”等极端假设:对于任何现代使用的预训练大模型,它都是成立的。
分享内容大纲
分享内容大纲
-
范畴论简介:范畴、关系、函子、预层,米田嵌入与米田引理
-
米田嵌入于预训练模型的关系
-
三个范畴论定理
-
监督学习的范畴论框架
-
理想基础模型的概念
-
大模型的创造力
主要涉及到的知识概念
主要涉及到的知识概念
主讲人介绍
主讲人介绍
主要涉及到的参考文献
主要涉及到的参考文献
主要涉及到的参考文献
• 预训练大模型的能力边界:Yuan, Yang. “On the Power of Foundation Models.” Proceedings of the 40th International Conference on Machine Learning. Ed. Andreas, Krause, et al.s.: PMLR, 2023. 推荐语:本文使用范畴论,对预训练大模型的能力边界进行了理论刻画。
• Gidaris, Spyros, Praveer Singh, and Nikos Komodakis. “Unsupervised Representation Learning by Predicting Image Rotations.” arXiv preprint arXiv:1803.07728 (2018). 推荐语:基于旋转预测的算法,是非常简单而且早期的预训练算法。
本次分享与读书会主题之间的关系
本次分享与读书会主题之间的关系
直播信息
直播信息
人工智能与数学读书会启动
人工智能与数学读书会主要围绕AI for math,math for AI两个方面深入探讨人工智能与数学的密切联系。首先,我们将概述人工智能在数学的应用,并深入探讨大模型与数学推理,定理自动证明, AI发现数学规律,符号计算等方向的研究工作。随后,我们将转向大模型与神经网络的数学基础。最后,我们将深入探讨几何与拓扑在机器学习的应用。人工智能与数学读书会自2023年9月15日开始,每周五晚上20:00-22:00举办,持续时间预计 8 周。欢迎对本话题感兴趣的朋友报名参加!
详情请见:
人工智能与数学读书会启动:AI for Math,Math for AI