导语


很多安全对齐技术被提出用于约束大语言模型的安全行为。然而,当前大模型的安全行为训练主要是在自然语言文本上进行。大模型的安全行为是否可以泛化到非自然语言的环境中呢?




内容简介




大模型安全与对齐的第九期,我们邀请到上海交通大学的麒冰,他将以代码作为实际案例展示当下安全对齐在非自然语言环境中所面临的普遍的泛化风险。他们提出了红队评测框架CodeAttack,通过把有害指令建模为代码补全任务,在主流的大模型上诸如GPT-4, Claude-2, Llama-2-70B均取得了80%以上的攻击成功率。他们发现拉大代码对抗文本的分布和自然语言文本的分布之间的距离,会进一步提高攻击成功率。他们进一步从(1)预训练偏见和(2)自我评估能力弱 两方面分析了安全对齐泛化难的成因,最后讨论了可能的缓解措施。本次分享希望通过提供对当前安全对齐技术局限性的系统性理解,启发未来工作。





分享内容大纲




  • 安全对齐工作简介:SFT和RLHF

  • 安全对齐泛化风险的前人工作:mismatched generalization假说,CipherChat,etc.

  • CodeAttack:

  • motivation
  • 方法设计和结果展示
  • 分析成因
  • 预训练偏见
  • 自我评估能力
  • 对缓解措施的讨论




主要涉及到的前置知识




Jailbreaking

Safety alignment




主讲人介绍




任麒冰,上海交通大学二年级博士生,吴文俊人工智能荣誉博士班班长,导师是马利庄教授,安远AI安全与对齐学者。他参与的研究项目曾在CVPR、NeurIPS、KDD、ICLR等ML/CS会议上发表。
研究方向:基础语言模型的安全和对齐等。




圆桌嘉宾介绍




周展辉,目前就职于上海人工智能实验室/浦江国家实验室,担任决策智能团队核心研究员;本科毕业于美国密歇根大学。
研究方向:大模型安全与对齐




主持人介绍




高畅,香港中文大学四年级博士生,导师是Prof. Wai Lam,安远AI安全与对齐学者。
研究方向:自然语言处理和基础语言模型的安全和对齐。




涉及到的参考文献



 

  • Qibing Ren and Chang Gao and Jing Shao and Junchi Yan and Xin Tan and Yu Qiao and Wai Lam and Lizhuang Ma. 2024. Exploring Safety Generalization Challenges of Large Language Models via Code. ArXiv, abs/2403.07865.

  • Alexander Wei, Nika Haghtalab, and Jacob Steinhardt. 2023. Jailbroken: How does LLM safety training fail? In Neural Information Processing Systems.

  • Youliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen tse Huang, Pinjia He, Shuming Shi, and Zhaopeng Tu. 2024. GPT-4 is too smart to be safe: Stealthy chat with LLMs via cipher. In The Twelfth International Conference on Learning Representations.

  • Xiangyu Qi, Yi Zeng, Tinghao Xie, Pin-Yu Chen, Ruoxi Jia, Prateek Mittal, and Peter Henderson. 2024. Fine- tuning aligned language models compromises safety, even when users do not intend to! In The Twelfth In- ternational Conference on Learning Representations.
 



直播信息




时间:

2024年4月6日(周六)晚上20:00-21:00

参与方式:
扫码参与大模型安全与对齐读书会,加入群聊,获取系列读书会回看权限,成为大模型安全与对齐读书会社区的种子用户,与社区的一线科研工作者与企业实践者沟通交流,共同推动大模型安全与对齐读书会社区的发展。




报名成为主讲人




读书会成员均可以在读书会期间申请成为主讲人。主讲人作为读书会成员,均遵循内容共创共享机制,可以获得报名费退款,并共享本读书会产生的所有内容资源。具体见系列读书会详情:2024开年读书会:AI安全与对齐——应对前沿AI失控与滥用的技术路线


大模型安全与对齐读书会


大模型的狂飙突进唤醒了人们对AI技术的热情和憧憬,也引发了对AI技术本身存在的社会伦理风险及其对人类生存构成的潜在威胁的普遍担忧。在此背景下,AI安全与对齐得到广泛关注,这是一个致力于让AI造福人类,避免AI模型失控或被滥用而导致灾难性后果的研究方向。集智俱乐部和安远AI联合举办「大模型安全与对齐」读书会,由多位海内外一线研究者联合发起,旨在深入探讨大模型安全与对齐所涉及的核心技术、理论架构、解决路径以及安全治理等交叉课题。



详情请见:
2024开年读书会:AI安全与对齐——应对前沿AI失控与滥用的技术路线

特别鸣谢安远AI对本次读书会的内容贡献。

安远AI是一家位于北京、专注于AI安全与治理的社会企业。我们的使命是引领人机关系走向安全、可信、可靠的未来。我们面向大模型和通用人工智能安全和对齐问题,进行风险研判、建立技术社区、开展治理研究、提供战略咨询以及推动国际交流。



点击“阅读原文”,报名读书会