导语


本次是因果科学与大语言模型读书会第四期。LLM是否能攀登因果之梯?如何确定、评估和提升大模型的因果推理能力?我们将由来自同济大学软件学院博士研究生陈思蕤介绍分享大模型的推理能力评测基准和数据集构建。

集智俱乐部联合北京大学大数据科学研究中心博士研究生李昊轩、伦敦大学学院计算机博士研究生杨梦月,卡耐基梅隆大学和穆罕默德·本·扎耶德人工智能大学博士后研究员陈广义共同发起「因果科学+大模型」读书会。这是我们因果科学系列读书会的第五季,旨在探讨在大模型之后为何仍需“因果科学”?大模型如何推动因果科学的研究进展?因果科学能否在推理能力、可解释性和可信性等方面启发更优大模型的设计?以及因果科学的最新进展如何在实际领域中应用和落地?希望汇聚相关领域的学者,共同探讨因果科学的发展和挑战,推动学科发展。





背景




因果推理是人类认知能力最重要的特征之一,提升因果推理能力被视为由机器智能迈向人类智能水平的关键步骤。近期大语言模型(LLM)的突破大大拓展了人工智能在众多领域上的能力,例如自然语言理解、编程、数学推理等。LLM展现出的各种新兴能力引发了我们对是否正在接近具备因果推理能力的人工智能科学家的思考。这种好奇心自然引出了几个基本问题:

a) 我们如何确定LLM是否具备因果推理能力?

b) 我们如何评估LLM的因果推理能力水平?

c) 我们如何提升LLM的因果推理能力?

这些问题都需要对LLM的因果推理能力进行全面的基准测试。为对大模型进行科学有效的因果推理能力评估,我们研究团队发布了首个大模型因果推理开放评测体系及开放平台CaLM以及首个大模型因果图理解能力评测基准CLEAR。基于CaLM,我们团队首次对28个当前主流大模型进行了因果推理能力评测,共产生了50项实证性发现,相关论文共315页。基于CLEAR,我们团队构建了对因果图理解能力的理论框架,并对6个当前性能领先的大模型进行了因果图理解能力评测。




大纲




CaLM:首个大模型因果推理开放评测体系及开放平台CaLM

  1. 背景介绍

  2. CaLM框架介绍

  3. 数据集构建

  4. Findings

  5. 总结

  6. 主页展示

CLEAR:首个大模型因果图理解能力评测基准CLEAR

  1. 因果图理解能力的理论框架

  2. CLEAR数据集概况

  3. 实验结果

  4. 总结




主讲人介绍




陈思蕤,同济大学软件学院博士研究生,导师为赵生捷教授。研究方向为因果推理,大语言模型。




主持人介绍




李昊轩, 北京大学大数据科学研究中心,数据科学(统计学)博士,CCF会员、IEEE会员、ACM会员。研究兴趣为因果机器学习理论、反事实公平性、推荐系统去偏、分布外泛化、多源数据融合、生物信息学和大语言模型等。已在ICML、NeurIPS、ICLR、KDD、WWW、AAAI、IJCAI等多个CCF-A顶尖会议以第一作者发表多篇论文,其中5篇论文被评选为Spotlight或Oral,现为ICML、NeurIPS、ICLR、KDD、WWW、AAAI、IJCAI等多个顶会PC member或Area Chair,以及TKDE、TOIS、TKDD、The Innovation、《中国科学:信息科学》等多个顶级期刊审稿人,14项发明专利。连续两年获得北京大学博士最高研究奖“校长奖学金”,获国家奖学金,九坤(人工智能方向)奖学金,北京大学三好学生,两项成果获北京大学“挑战杯”五四青年科学奖特等奖,并获得首批国家自然科学基金青年学生基础研究项目(博士研究生)30万资助。




直播信息




直播时间:

8月4日20:00-22:00(周日),直播报名入口见后文。

参与方式:

集智俱乐部 B站和视频号免费直播,扫码可预约:

扫码预约本次直播

若需要观看视频回放,文末扫码付费参加可加入腾讯会议,可提问交流、加入群聊、获取视频回放及更多学习资料,成为因果科学社区种子用户,与一线科研工作者沟通交流,共同推动因果科学社区的发展。




参考文献




CaLM:主要介绍大语言模型因果推理评测体系的构建

Sirui Chen, Bo Peng, Meiqi Chen, Ruiqi Wang, Mengying Xu, Xingyu Zeng, Rui Zhao, Shengjie Zhao, Yu Qiao, Chaochao Lu. Causal Evaluation of Language Models. arXiv:2405.00622, 2024 https://arxiv.org/pdf/2405.00622

CLEAR:主要介绍大语言模型对于因果图理解能力的评测
Sirui Chen, Mengying Xu, Kun Wang, Xingyu Zeng, Rui Zhao, Shengjie Zhao, Chaochao Lu. CLEAR: Can Language Models Really Understand Causal Graphs?. arXiv:2406.16605, 2024 https://arxiv.org/pdf/2406.16605

让大模型更贴近人类认知水平,上海AI实验室发布首个因果推理评测体系CaLM


因果科学社区


“因果”并不是一个新概念,而是一个已经在多个学科中使用了数十年的分析技术。集智俱乐部在过去4年期间围绕研究人员的不同角度的需求,举办了4季相关主题的读书会,形成了数千人规模的社区。

第一季:因果科学与Causal AI基于《Elements of Causal Inference》,探讨因果科学在机器学习方面的应用,如强化学习和迁移学习等,并分享工业应用。

第二季:因果科学与基础实战聚焦实操和基础,深入学习《Causal inference in statistics: A primer》和《Elements of causal inference: foundations and learning algorithms》。 

第三季:因果科学与Causal +X回顾社会学、经济学、医学,计算机等领域的因果模型和范式,尝试用现代模型提供新思路。 

第四季:因果表征学习探讨因果表征学习的理论、技术和最新应用,涉及因果生成模型、可解释性、公平性及工业落地。

第五季读书会主要围绕因果科学的最新进展,包括因果科学与大模型的结合等方面进行深度的探讨和梳理,希望给在这个领域的研究者提供一个全面的研究图景。共同探讨因果科学的未来发展以及面临的挑战。


详情请见:速来!因果与大模型的双向赋能丨因果科学第五季强势回归


点击“阅读原文”,报名读书会