北大对齐小组：大模型价值对齐的方法、目标和开放问题丨大模型安全与对齐读书会·周六直播

导语

以大语言模型为代表的 AI 技术，或许将对我们的世界有深远的影响。要如何进行对 AI 行为的价值对齐（Value Alignment），才能保证这一影响长期向善？

内容简介

随着大语言模型和基于大语言模型的智能体系统被越来越多地用于现实决策，大模型中内含的价值倾向成为一个影响重大的问题。大模型应习得何种价值、如何让大模型习得价值，围绕这些主题已经有了多种多样的工程实践，但同时也面临着诸多未解决的研究问题。

大模型安全与对齐的第十期，我们邀请到北京大学对齐小组（PKU-Alignment Team）的陈博远和邱天异，以价值对齐（Value Alignment）为主题，分为两个部分。其一将介绍实现高效价值对齐的 Aligner 算法，其二将着眼于价值对齐领域的整体面貌，对其中的研究问题和工程实践进行介绍。

分享内容大纲

（陈博远）通过 Aligner 实现高效的价值对齐

Alignment 的基本面貌与问题
Aligner的引入与核心洞见
Aligner for Value Alignment and Weak-to-Strong Alignment

（邱天异）价值对齐（Value Alignment）的历史、前沿和工程实践

历史：Machine Ethics 、早期的 Value Alignment 理论研究
前沿：Alignment 与 Social Choice 、语言模型的内生 Moral Reflection & Moral Progress
工程实践：Collective Constitutional AI (Anthropic) 、Democratic Fine-Tuning (OpenAI-sponsored)

主要涉及到的前置知识

对大语言模型的基本了解

主讲人介绍

陈博远，北京大学对齐小组（PKU-Alignment Team）成员，师从杨耀东老师开展 AI 对齐研究。他关注的问题包括如何利用弱模型实现对强模型的可扩展监督（这对解决超对齐问题至关重要），以及如何以理论和实验相结合的方法帮助实现AI系统的道德价值对齐和解决相应的社会技术问题。

研究方向：可扩展监督，AI系统的道德价值对齐

邱天异，在北京大学对齐小组（PKU-Alignment Team）成员，师从杨耀东老师开展 AI 对齐研究。他也是 UC Berkeley Center for Human-Compatible AI 的实习研究员。他关注的问题包括在当下的大语言模型中工程实现持续的道德进步（moral progress），以及用自然科学式的、实验理论相结合的方法帮助澄清 AI 安全中的核心争论。个人主页：tianyiqiu.net

研究方向：AI对齐，AI安全中的核心争论

圆桌嘉宾介绍

沈田浩，天津大学自然语言处理实验室（TJUNLP）三年级博士生，导师为熊德意教授，曾获得第九届对话技术挑战赛 (DSTC9) “端到端多领域任务型对话”赛道第一名，在ACL、EMNLP等国际会议上发表多篇学术论文，撰写了大规模语言模型对齐技术的综述（https://arxiv.org/abs/2309.15025），并担任ACL, EMNLP, AACL等会议的审稿人。

研究方向：对话系统、检索式问答和大规模语言模型等

主持人介绍

吉嘉铭，北京大学人工智能学院博士生在读，师从杨耀东老师。个人主页: jijiaming.com。

研究方向：AI安全与价值对齐

涉及到的参考文献

Ji, J.*, Chen, B.*, Lou, H., Hong, D., Zhang, B., Pan, X., … & Yang, Y. (2024). Aligner: Achieving efficient alignment through weak-to-strong correction. arXiv preprint arXiv:2402.02416. [用于高效价值对齐的 Aligner 方法]
Ji, J.*, Qiu, T.*, Chen, B.*, Zhang, B.*, Lou, H., Wang, K., … & Gao, W. (2023). Ai alignment: A comprehensive survey. arXiv preprint arXiv:2310.19852. [关于 AI Alignment 的全面性综述]
Gabriel, I. Artificial Intelligence, Values, and Alignment. Minds & Machines 30, 411–437 (2020). [围绕对齐相关概念的梳理澄清]
Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., … & Kaplan, J. (2022). Constitutional ai: Harmlessness from ai feedback. arXiv preprint arXiv:2212.08073. [大语言模型价值对齐算法之一]
Tolmeijer, S., Kneer, M., Sarasua, C., Christen, M., & Bernstein, A. (2020). Implementations in machine ethics: A survey. ACM Computing Surveys (CSUR), 53(6), 1-38. [Machine Ethics 领域综述]
Buchanan, A., Powell, R. (2018). The Evolution of Moral Progress: A Biocultural Theory. Oxford University Press. [关于 Moral Progress 的最著名论著]

直播信息

时间：

2024年4月13日（周六）早上10:00-12:00

参与方式：

扫码参与大模型安全与对齐读书会，加入群聊，获取系列读书会回看权限，成为大模型安全与对齐读书会社区的种子用户，与社区的一线科研工作者与企业实践者沟通交流，共同推动大模型安全与对齐读书会社区的发展。

报名成为主讲人

读书会成员均可以在读书会期间申请成为主讲人。主讲人作为读书会成员，均遵循内容共创共享机制，可以获得报名费退款，并共享本读书会产生的所有内容资源。具体见系列读书会详情：2024开年读书会：AI安全与对齐——应对前沿AI失控与滥用的技术路线。

大模型安全与对齐读书会

大模型的狂飙突进唤醒了人们对AI技术的热情和憧憬，也引发了对AI技术本身存在的社会伦理风险及其对人类生存构成的潜在威胁的普遍担忧。在此背景下，AI安全与对齐得到广泛关注，这是一个致力于让AI造福人类，避免AI模型失控或被滥用而导致灾难性后果的研究方向。集智俱乐部和安远AI联合举办「大模型安全与对齐」读书会，由多位海内外一线研究者联合发起，旨在深入探讨大模型安全与对齐所涉及的核心技术、理论架构、解决路径以及安全治理等交叉课题。

详情请见：

2024开年读书会：AI安全与对齐——应对前沿AI失控与滥用的技术路线

特别鸣谢安远AI对本次读书会的内容贡献。

安远AI是一家位于北京、专注于AI安全与治理的社会企业。我们的使命是引领人机关系走向安全、可信、可靠的未来。我们面向大模型和通用人工智能安全和对齐问题，进行风险研判、建立技术社区、开展治理研究、提供战略咨询以及推动国际交流。

点击“阅读原文”，报名读书会

北大对齐小组：大模型价值对齐的方法、目标和开放问题丨大模型安全与对齐读书会·周六直播

内容简介

分享内容大纲

主要涉及到的前置知识

主讲人介绍

圆桌嘉宾介绍

主持人介绍

涉及到的参考文献

直播信息

报名成为主讲人

吴家睿：圣塔菲研究所与科学的新综合 | 新书《复杂》

对称性破缺与涌现：对称性如何帮助理解生命和智能？

发表评论点击这里取消回复。

复杂系统的涌现动力学

Koopman分析在非线性动力学中的应用

重磅系列课程：控制科学前沿理论与方法

第三代人工智能技术基础课程

复杂系统入门与实战（Python）

热门浏览

DeepSeek-R1｜集智百科

因果涌现与“时间倒流”：基于可逆性的因果涌现新理论｜集智科学研究中心最新成果

复杂网络上的自组织与集体行为：从扩散、相变到博弈 | 读书会启动

人类智能如何从大脑中涌现？大脑精细模拟重塑 NeuroAI 范式

新书推荐：《复杂网络分析》

最新文章

自相似动力学的数据驱动建模｜集智研究中心成果

Chaos速递：结合观察和干预数据的复杂系统控制优化｜集智科学研究中心成果

Chaos：数据驱动的复杂系统建模特刊概览

从量子信息科学视角看意识的量子模型

热力学2.0：自然科学和社会科学之间的桥梁｜英国皇家学会特刊介绍

北大对齐小组：大模型价值对齐的方法、目标和开放问题丨大模型安全与对齐读书会·周六直播

内容简介

分享内容大纲

主要涉及到的前置知识

主讲人介绍

圆桌嘉宾介绍

主持人介绍

涉及到的参考文献

直播信息

报名成为主讲人

微信扫一扫,分享到朋友圈

吴家睿：圣塔菲研究所与科学的新综合 | 新书《复杂》

对称性破缺与涌现：对称性如何帮助理解生命和智能？

猜你喜欢

自相似动力学的数据驱动建模｜集智研究中心成果

Chaos速递：结合观察和干预数据的复杂系统控制优化｜集智科学研究中心成果

Chaos：数据驱动的复杂系统建模特刊概览

从量子信息科学视角看意识的量子模型

热力学2.0：自然科学和社会科学之间的桥梁｜英国皇家学会特刊介绍

因果涌现新范式：对偶代数的动力学解码｜周日直播·因果涌现第六季读书会

发表评论 点击这里取消回复。

复杂系统的涌现动力学

Koopman分析在非线性动力学中的应用

重磅系列课程：控制科学前沿理论与方法

第三代人工智能技术基础课程

复杂系统入门与实战（Python）

热门浏览

DeepSeek-R1｜集智百科

因果涌现与“时间倒流”：基于可逆性的因果涌现新理论｜集智科学研究中心最新成果

复杂网络上的自组织与集体行为：从扩散、相变到博弈 | 读书会启动

人类智能如何从大脑中涌现？大脑精细模拟重塑 NeuroAI 范式

新书推荐：《复杂网络分析》

最新文章

自相似动力学的数据驱动建模｜集智研究中心成果

Chaos速递：结合观察和干预数据的复杂系统控制优化｜集智科学研究中心成果

Chaos：数据驱动的复杂系统建模特刊概览

从量子信息科学视角看意识的量子模型

热力学2.0：自然科学和社会科学之间的桥梁｜英国皇家学会特刊介绍

关注我们的公众号

发表评论点击这里取消回复。