大语言模型因果推理能力评测基准与数据集构建丨周日直播·因果科学与大语言模型读书会
导语
背景
背景
因果推理是人类认知能力最重要的特征之一,提升因果推理能力被视为由机器智能迈向人类智能水平的关键步骤。近期大语言模型(LLM)的突破大大拓展了人工智能在众多领域上的能力,例如自然语言理解、编程、数学推理等。LLM展现出的各种新兴能力引发了我们对是否正在接近具备因果推理能力的人工智能科学家的思考。这种好奇心自然引出了几个基本问题:
a) 我们如何确定LLM是否具备因果推理能力?
b) 我们如何评估LLM的因果推理能力水平?
c) 我们如何提升LLM的因果推理能力?
大纲
大纲
CaLM:首个大模型因果推理开放评测体系及开放平台CaLM
-
背景介绍
-
CaLM框架介绍
-
数据集构建
-
Findings
-
总结
-
主页展示
CLEAR:首个大模型因果图理解能力评测基准CLEAR
-
因果图理解能力的理论框架
-
CLEAR数据集概况
-
实验结果
-
总结
主讲人介绍
主讲人介绍
主持人介绍
主持人介绍
直播信息
直播信息
直播时间:
参与方式:
集智俱乐部 B站和视频号免费直播,扫码可预约:
参考文献
参考文献
CaLM:主要介绍大语言模型因果推理评测体系的构建
Sirui Chen, Bo Peng, Meiqi Chen, Ruiqi Wang, Mengying Xu, Xingyu Zeng, Rui Zhao, Shengjie Zhao, Yu Qiao, Chaochao Lu. Causal Evaluation of Language Models. arXiv:2405.00622, 2024 https://arxiv.org/pdf/2405.00622
CLEAR:主要介绍大语言模型对于因果图理解能力的评测
Sirui Chen, Mengying Xu, Kun Wang, Xingyu Zeng, Rui Zhao, Shengjie Zhao, Chaochao Lu. CLEAR: Can Language Models Really Understand Causal Graphs?. arXiv:2406.16605, 2024 https://arxiv.org/pdf/2406.16605
因果科学社区
【第一季:因果科学与Causal AI】基于《Elements of Causal Inference》,探讨因果科学在机器学习方面的应用,如强化学习和迁移学习等,并分享工业应用。
【第二季:因果科学与基础实战】聚焦实操和基础,深入学习《Causal inference in statistics: A primer》和《Elements of causal inference: foundations and learning algorithms》。
【第三季:因果科学与Causal +X】回顾社会学、经济学、医学,计算机等领域的因果模型和范式,尝试用现代模型提供新思路。
【第四季:因果表征学习】探讨因果表征学习的理论、技术和最新应用,涉及因果生成模型、可解释性、公平性及工业落地。
详情请见:速来!因果与大模型的双向赋能丨因果科学第五季强势回归