周日直播·大模型安全与对齐读书会收官圆桌：人工智能风险红线声明

导语

今年3月11-12日，Yoshua Bengio、Geoffrey Hinton、姚期智、张宏江、Stuart Russell 等三十余位中外技术专家、企业负责人在北京颐和园针对AI安全开展了「北京AI国际安全对话」，为AI的发展划定了红线（自主复制或改进、权力寻求、协助不良行为者、欺骗），并展望了降低风险的路线（治理、测量与评估、技术合作）。

在集智 x 安远AI大模型安全与对齐读书会的最后一期，我们邀请到了来自价值对齐、可解释性、对抗鲁棒性、模型评估等不同领域等学者——段雅文（安远AI），陈欣（苏黎世联邦理工）与陈奕群（上海交大），在北京时间5月5日15:00-16:00，以圆桌论坛的形式共同展开对AI风险红线共识声明的探讨。

内容简介

AI系统有哪些不应该被研发的危险能力？AI系统的使用和部署有哪些不该被触及的底线？当前安全和对齐的方法对于降低风险还存在什么样的挑战？来自安远AI的段雅文将对大模型安全与对齐读书会的内容进行回顾与总结，苏黎世联邦理工学院计算机系在读博士生陈欣主要分享人工智能安全国际对话与人工智能风险红线宣言，上海交通大学在读博士生陈奕群会围绕 AI 欺骗（Deception）能力介绍其挑战与应对方向。随后连同沈田浩、吉嘉铭、刘东瑞、任麒冰等学者以圆桌论坛的形式共同展开AI风险红线共识声明的探讨。

分享大纲

大模型安全与对齐读书会回顾与总结（段雅文, 5 mins）
人工智能安全国际对话与人工智能风险红线宣言（陈欣，5-10 mins）

人工智能安全国际对话
Ditchley宣言
北京宣言

AI 欺骗（Deception）能力红线的挑战与应对（陈奕群，5-10 mins）

Honesty
Incosistency
Deception

圆桌讨论（沈田浩、吉嘉铭、刘东瑞、任麒冰）

AI系统有哪些不应该被研发的危险能力？
AI系统的部署使用有哪些不该被触及的底线？
当前安全和对齐的方法对于降低风险存在什么样的进步空间？

主要涉及到的前置知识

AI Alignment
AI Safety
AI Honesty

主讲人介绍

陈欣，苏黎世联邦理工学院（ETH Zurich）计算机系在读博士生。她师从Andreas Krause教授进行人工智能对齐研究，也曾在加州大学伯克利分校人类兼容人工智能研究中心（Center for Human-Compatible AI）Stuart Russell教授组进行研究实习。她自2019年起在NeurIPS、AAAI等多个顶会上主办逾10个AI安全与对齐相关的workshop，也是关注AI长期风险与对齐的Vitalik Buterin PhD Fellowship和Open Philanthropy AI Fellowship的2022年获奖者之一。

研究方向：人工智能对齐，强化学习

陈奕群，上海交通大学计算机系在读博士生。他师从刘鹏飞教授进行人工智能对齐研究，硕士期间在卡内基美隆大学师从Graham Neubig教授。他过去曾在亚马逊进行研究实习，在人工智能对齐和大模型相关领域发表了多篇论文。

研究方向：人工智能对齐

圆桌嘉宾介绍

沈田浩，天津大学自然语言处理实验室（TJUNLP）三年级博士生，导师为熊德意教授，曾获得第九届对话技术挑战赛 (DSTC9) “端到端多领域任务型对话”赛道第一名，在ACL、EMNLP等国际会议上发表多篇学术论文，撰写了大规模语言模型对齐技术的综述（https://arxiv.org/abs/2309.15025），并担任ACL, EMNLP, AACL等会议的审稿人。

研究方向：对话系统、检索式问答和大规模语言模型等

吉嘉铭，北京大学人工智能学院博士生在读，师从杨耀东老师。个人主页: jijiaming.com。

研究方向:AI安全与价值对齐

刘东瑞，上海人工智能实验室大模型安全团队研究员，致力于大模型安全和可解释研究，在NeurIPs, CVPR, AAAI等顶尖国际会议发表过多篇文章。

研究方向：大模型安全和可解释性

任麒冰，上海交通大学二年级博士生，吴文俊人工智能荣誉博士班班长，导师是马利庄教授，安远AI安全与对齐学者。他参与的研究项目曾在CVPR、NeurIPS、KDD、ICLR等ML/CS会议上发表。

研究方向：基础语言模型的安全和对齐等

主持人介绍

段雅文，安远AI技术项目经理，致力于AI安全技术社区建设，关注大模型安全和对齐研究。他曾在UC Berkeley的Stuart Russell组和剑桥大学David Krueger实验室进行AI安全和对齐研究。他曾在NeurIPS组织Socially Responsible Language Model Research工作坊，参与的研究项目曾在CVPR、ECCV、ICML、ACM FAccT、NeurIPS MLSafety Workshop等ML/CS会议和工作坊上发表。他拥有剑桥大学机器学习硕士学位和香港大学理学士学位。

研究方向：人工智能安全与对齐等

涉及到的参考文献

Wei J, Huang D, Lu Y, et al. Simple synthetic data reduces sycophancy in large language models[J]. arXiv preprint arXiv:2308.03958, 2023.
Park P S, Goldstein S, O’Gara A, et al. AI deception: A survey of examples, risks, and potential solutions[J]. arXiv preprint arXiv:2308.14752, 2023.
Joshi N, Rando J, Saparov A, et al. Personas as a way to model truthfulness in language models[J]. arXiv preprint arXiv:2310.18168, 2023.
Pacchiardi L, Chan A J, Mindermann S, et al. How to catch an ai liar: Lie detection in black-box llms by asking unrelated questions[J]. arXiv preprint arXiv:2309.15840, 2023.

直播信息

时间：

2024年5月5日（周日）下午15:00-16:00

参与方式：

若感兴趣大模型安全与对齐读书会系列分享，可扫码参与大模型安全与对齐读书会，加入群聊，可获取系列读书会回看权限，成为大模型安全与对齐读书会社区的种子用户，与社区的一线科研工作者与企业实践者沟通交流，共同推动大模型安全与对齐读书会社区的发展。

报名成为主讲人

读书会成员均可以在读书会期间申请成为主讲人。主讲人作为读书会成员，均遵循内容共创共享机制，可以获得报名费退款，并共享本读书会产生的所有内容资源。具体见系列读书会详情：2024开年读书会：AI安全与对齐——应对前沿AI失控与滥用的技术路线。

大模型安全与对齐读书会

大模型的狂飙突进唤醒了人们对AI技术的热情和憧憬，也引发了对AI技术本身存在的社会伦理风险及其对人类生存构成的潜在威胁的普遍担忧。在此背景下，AI安全与对齐得到广泛关注，这是一个致力于让AI造福人类，避免AI模型失控或被滥用而导致灾难性后果的研究方向。集智俱乐部和安远AI联合举办「大模型安全与对齐」读书会，由多位海内外一线研究者联合发起，旨在深入探讨大模型安全与对齐所涉及的核心技术、理论架构、解决路径以及安全治理等交叉课题。