时间、信息与人工智能:从信息动力学角度看大模型的未来
导语
1. 大语言模型简介
1. 大语言模型简介
图1 克劳德·香农在关于信源编码定理(source coding theorem)的论文中研究的语言模型
图2 大语言模型的示意图。输入内容(粉色)经过运算预测输出下一个词(绿色),如此迭代
图3 美国人工智能公司Anthropic的模型Claude 3在2024年3月发布时的评测结果,其中红框中的三个模型Opus,Sonnet和Haiku是Claude 3的三个不同版本,能力依次减弱(图片引自:https://www.anthropic.com/news/claude-3-family)
2. 信息复杂度的临界点
2. 信息复杂度的临界点
图4 大语言模型(LLM)和之前的机器(例如AlphaGo,Google)在信息的输入、处理和输出的复杂度对比。虚线代表人类水平
3. AI的快与慢
3. AI的快与慢
3.1 人类的认知系统
那么系统2是和系统1完全独立的另一套认知系统吗?并不是。举个例子,如果我们要计算9乘9,就会根据记忆直接给出结果81,不需要思考,因此这是一个系统1的工作。如果我们要计算999乘999,就不能只凭记忆,就要开始调用系统2开始思考。我们可能会分成如下的步骤去做:
(1)利用999=1000-1,把问题转化为计算(1000−1)×(1000−1);
(2)用乘法分配律展开这个式子;
(3)计算1000×1000,1000×1,1×1;
图6 人类的系统1和系统2的关系。系统2是系统1的网络,系统2的使用带来的数据(经验)会反过来训练系统1
图7 人类和人工智能的时间尺度比较。人类的系统2涵盖了从1秒到几十年的时间尺度范围,可以针对不同的任务调整认知的时间尺度。相比之下,AI的快行为(推理)和慢行为(微调和预训练)之间存在空档,而且微调和预训练要通过人类干预才能完成
4. 通向系统2:AI智能体
4. 通向系统2:AI智能体
图8 几种不同的对大模型的调用方式 (a)给定问题直接输出答案;(b)思维链提示词;(c)多条思维链再做多数表决;(d)思维树[7]
图10 AutoGen示意图[11] (a) AutoGen的智能体可以包括大模型或者其他工具,也可以包括人的输入;(b) AutoGen的智能体之间可以通过对话解决问题
5. 总结与展望
5. 总结与展望
在接下来的5-10年,人工智能的发展将会给人类社会的各方面带来深远的影响,甚至是翻天覆地的变化。在各方面的影响中,对于科学研究等创新工作的影响可能是最深刻的变化之一。如何应用人工智能来帮助科学研究,是非常值得深入思考和探索的问题。
作者简介
报名链接:https://pattern.swarma.org/study_group_issue/480
参考文献
参考文献可上下滑动查看
AI By Complexity读书会招募中
大模型、多模态、多智能体层出不穷,各种各样的神经网络变体在AI大舞台各显身手。复杂系统领域对于涌现、层级、鲁棒性、非线性、演化等问题的探索也在持续推进。而优秀的AI系统、创新性的神经网络,往往在一定程度上具备优秀复杂系统的特征。因此,发展中的复杂系统理论方法如何指导未来AI的设计,正在成为备受关注的问题。
集智俱乐部联合加利福尼亚大学圣迭戈分校助理教授尤亦庄、北京师范大学副教授刘宇、北京师范大学系统科学学院在读博士张章、牟牧云和在读硕士杨明哲、清华大学在读博士田洋共同发起「AI By Complexity」读书会,探究如何度量复杂系统的“好坏”?如何理解复杂系统的机制?这些理解是否可以启发我们设计更好的AI模型?在本质上帮助我们设计更好的AI系统。读书会于6月10日开始,每周一晚上20:00-22:00举办。欢迎从事相关领域研究、对AI+Complexity感兴趣的朋友们报名读书会交流!
AI+Science 读书会
“后ChatGPT”读书会
点击“阅读原文”,报名读书会