北大对齐小组:大模型价值对齐的方法、目标和开放问题丨大模型安全与对齐读书会·周六直播
导语
内容简介
内容简介
分享内容大纲
分享内容大纲
-
(陈博远)通过 Aligner 实现高效的价值对齐
-
Alignment 的基本面貌与问题 -
Aligner的引入与核心洞见 -
Aligner for Value Alignment and Weak-to-Strong Alignment
-
(邱天异)价值对齐(Value Alignment)的历史、前沿和工程实践
-
历史:Machine Ethics 、早期的 Value Alignment 理论研究 -
前沿:Alignment 与 Social Choice 、语言模型的内生 Moral Reflection & Moral Progress -
工程实践:Collective Constitutional AI (Anthropic) 、Democratic Fine-Tuning (OpenAI-sponsored)
主要涉及到的前置知识
主要涉及到的前置知识
-
对大语言模型的基本了解
主讲人介绍
主讲人介绍
圆桌嘉宾介绍
圆桌嘉宾介绍
主持人介绍
主持人介绍
涉及到的参考文献
涉及到的参考文献
-
Ji, J.*, Chen, B.*, Lou, H., Hong, D., Zhang, B., Pan, X., … & Yang, Y. (2024). Aligner: Achieving efficient alignment through weak-to-strong correction. arXiv preprint arXiv:2402.02416. [用于高效价值对齐的 Aligner 方法]
-
Ji, J.*, Qiu, T.*, Chen, B.*, Zhang, B.*, Lou, H., Wang, K., … & Gao, W. (2023). Ai alignment: A comprehensive survey. arXiv preprint arXiv:2310.19852. [关于 AI Alignment 的全面性综述]
-
Gabriel, I. Artificial Intelligence, Values, and Alignment. Minds & Machines 30, 411–437 (2020). [围绕对齐相关概念的梳理澄清]
-
Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., … & Kaplan, J. (2022). Constitutional ai: Harmlessness from ai feedback. arXiv preprint arXiv:2212.08073. [大语言模型价值对齐算法之一]
-
Tolmeijer, S., Kneer, M., Sarasua, C., Christen, M., & Bernstein, A. (2020). Implementations in machine ethics: A survey. ACM Computing Surveys (CSUR), 53(6), 1-38. [Machine Ethics 领域综述]
-
Buchanan, A., Powell, R. (2018). The Evolution of Moral Progress: A Biocultural Theory. Oxford University Press. [关于 Moral Progress 的最著名论著]
直播信息
直播信息
报名成为主讲人
报名成为主讲人
大模型安全与对齐读书会
大模型的狂飙突进唤醒了人们对AI技术的热情和憧憬,也引发了对AI技术本身存在的社会伦理风险及其对人类生存构成的潜在威胁的普遍担忧。在此背景下,AI安全与对齐得到广泛关注,这是一个致力于让AI造福人类,避免AI模型失控或被滥用而导致灾难性后果的研究方向。集智俱乐部和安远AI联合举办「大模型安全与对齐」读书会,由多位海内外一线研究者联合发起,旨在深入探讨大模型安全与对齐所涉及的核心技术、理论架构、解决路径以及安全治理等交叉课题。
点击“阅读原文”,报名读书会