导语


最近KAN突然爆火,让人们开始意识到大型模型的计算效率至关重要,提高大型模型生成tokens的速度也是至关重要的。相对于不断加码GPU,改善Transformer模型架构的计算效率是一种更为长远有效的方法。近期,彩云科技对Transformer计算最耗时的核心组件——多头注意力模块(MHA)进行了改进,他们推出的DCFormer将Transformer的计算性能提升有2倍之高。目前,该工作已被ICML 2024以7分的高分录用。

我们邀请了彩云科技首席科学家肖达老师,于北京时间5月27日(周一)19:00-20:00,在集智“后ChatGPT时代”读书会中深入解读DCFormer的主要工作。本次分享将深入解读DCFormer的主要工作以及背后的动机和研究历程,并探讨模型结构研究的未来发展方向。



这项工作的论文地址以及在Github上已开源的代码、模型和训练数据集。

论文标题:Improving Transformers with Dynamically Composable Multi-Head Attention
论文链接https://arxiv.org/abs/2405.08553
开源项目地址:https://github.com/Caiyun-AI/DCFormer





主讲人




肖达,北京邮电大学讲师,彩云科技首席科学家,集智俱乐部核心成员。长期从事深度学习、大模型的算法研究及其在天气预报、机器翻译、机器辅助创作、系统和代码安全等领域的应用研究,相关工作发表在ICLR、ICML、TDSC等顶级会议和期刊。目前研究兴趣包括大模型机制机制可解释性、高效模型架构设计。




内容简介




与当下在大模型scaling law指导下的堆算力路线不同,DCFormer是一项关于模型结构的基础研究。该工作从Transformer核心组件多头注意力模块(MHA)入手,用机制可解释性方法分析了它的固有缺陷,提出动态组合的多头注意力机制(Dynamically Composable Multi-Head Attention,DCMHA)。DCMHA旨在提高模型的表达能力,同时保持参数和计算效率,它可以作为任何Transformer架构中MHA模块的即插即用替代品,以获得相应的DCFormer模型。实验表明,DCFormer在不同的模型架构和规模下均显著优于Transformer,在语言建模任务中与1.7~2倍算力的模型性能相匹配。该工作已被ICML 2024录用。本次分享将深入解读DCFormer的主要工作以及背后的动机和研究历程,并探讨模型结构研究的未来发展方向。




分享大纲



 

  • 研究动机:多头注意力(MHA)的工作机制和问题分析

  • 研究内容:DCMHA的设计和实现、DCFormer的实验评估

  • 总结和展望:DCFormer研究历程、模型架构研究的未




直播信息



 

时间:

2024年5月27日(周一)晚上19:00

1、集智俱乐部 B 站免费直播,扫码可预约。

2、本期读书会公开进行,扫码参与读书会,加入群聊获取本系列读书会的视频回放权限、资料权限,与社区的一线科研工作者和企业实践者沟通交流。

报名链接:https://pattern.swarma.org/study_group_issue/682?from=wechat

关联读书会:
1. “后 ChatGPT”读书会启动:从通用人工智能到意识机器
2时序时空大模型读书会启动:大模型开启时序时空数据挖掘新视角

相关论文解读:
1. 彩云科技推出大模型 DCFormer,效率是 Transformer 的两倍!
2. ICML2024高分论文!大模型计算效率暴涨至200%,来自中国AI公司


“后ChatGPT”读书会


2022年11月30日,一个现象级应用程序诞生于互联网,这就是OpenAI开发的ChatGPT。从问答到写程序,从提取摘要到论文写作,ChatGPT展现出了多样化的通用智能。于是,微软、谷歌、百度、阿里、讯飞,互联网大佬们纷纷摩拳擦掌准备入场……但是,请先冷静一下…… 现在 all in 大语言模型是否真的合适?要知道,ChatGPT的背后其实就是深度学习+大数据+大模型,而这些要素早在5年前的AlphaGo时期就已经开始火热了。5年前没有抓住机遇,现在又凭什么可以搭上大语言模型这趟列车呢?

集智俱乐部特别组织“后 ChatGPT”读书会,由北师大教授、集智俱乐部创始人张江老师联合肖达、李嫣然、崔鹏、侯月源、钟翰廷、卢燚等多位老师共同发起,旨在系统性地梳理ChatGPT技术,并发现其弱点与短板。读书会已完结,现在报名可加入社群并解锁回放视频权限。



详情请见:
“后 ChatGPT”读书会启动:从通用人工智能到意识机器


时序时空大模型读书会招募中


现代生活产生了大量的时序数据和时空数据,分析这些数据对于深入理解现实世界系统的复杂性和演化规律至关重要。近期,受到大语言模型(LLM)在通用智能领域的启发,”大模型+时序/时空数据”这个新方向迸发出了许多相关进展。当前的LLM有潜力彻底改变时空数据挖掘方式,从而促进城市、交通、遥感等典型复杂系统的决策高效制定,并朝着更普遍的时空分析智能形式迈进。

集智俱乐部联合美国佐治亚理工学院博士&松鼠AI首席科学家文青松、香港科技大学(广州)助理教授梁宇轩、中国科学院计算技术研究所副研究员姚迪、澳大利亚新南威尔士大学讲师薛昊、莫纳什大学博士生金明等五位发起人,共同发起以“时序时空大模型”为主题的系列读书会,鼓励研究人员和实践者认识到LLM在推进时序及时空数据挖掘方面的潜力,共学共研相关文献。读书会第一期分享从5月8日(周三)19:00 公开直播,后续分享时间为每周三19:00-21:00(北京时间)进行,预计持续10-12周。欢迎感兴趣的朋友报名参与!


详情请见:
时序时空大模型读书会启动:大模型开启时序时空数据挖掘新视角



点击“阅读原文”,报名读书会