导语


集智俱乐部和安远AI联合举办“大模型安全与对齐”读书会,由多位海内外一线研究者联合发起,针对大模型安全与对齐所涉及的核心技术、理论架构、解决路径以及安全治理等交叉课题,展开共读共研活动。读书会自2024年1月27日正式开始,每周六上午举行,为期8-10周。欢迎从事相关研究与应用工作的朋友报名加入!




分享内容简介




相比于在大语言模型(LLMs)安全性方面取得的研究进展,对多模态大语言模型(MLLMs)的安全性的研究仍然处于早期阶段。新的模态(图片)带来了哪些新的风险?如何评测MLLMs的安全能力(比如评测集,评测指标)?有哪些方法可以抵制不安全的多模态输入?本次分享首先全面介绍MLLMs安全性的当前研究进展,然后详细介绍一篇研究MLLMs抵御恶意攻击的能力的工作,最后探讨了三个未来的研究方向。





分享内容大纲



  • 综述:多模态大语言模型(MLLMs)的安全性

    • 安全的概念理解

    • 评估方法

    • 攻击方法

    • 防御方法

  • MM-SafetyBench:研究MLLMs抵御恶意攻击的能力

    • 动机

    • 核心方法

    • 构建评估数据集

    • 实验

  • 未来的研究方向

    • 可靠的安全评估

    • 对安全风险的深入研究

    • 安全对齐




主要涉及到的前置知识




多模态大语言模型





主要涉及到的话题讨论 




  • Sora爆火背后,如何降低文生视频模型的滥用风险?

  • 如何评估/衡量多模态大模型的攻击/防御效果?

  • 我们如何应对攻击手段更多样、数据结构更复杂等多模态大模型的独特挑战?





主讲人介绍




刘馨,华东师范大学二年级硕士生,目前在上海人工智能实验室实习。近期撰写了多模态大模型安全性方面的一篇综述(arxiv.org/abs/2402.00357)、一篇构建安全评测数据集的工作(arxiv.org/abs/2311.17600)。在ACM MM、NeurIPS会议上参与发表学术论文,并担任CVPR 2024的审稿人。
研究方向:多模态大模型的安全性





主持人介绍




段雅文,安远AI技术项目经理,致力于AI安全技术社区建设。他是未来生命研究所AI Existential Safety PhD学者,关注大模型安全和对齐研究。他曾在UC Berkeley的Stuart Russell组和剑桥大学David Krueger实验室进行AI安全和对齐研究。他曾在NeurIPS组织Socially Responsible Language Model Research工作坊,参与的研究项目曾在CVPR、ECCV、ICML、ACM FAccT、NeurIPS MLSafety Workshop等ML/CS会议和工作坊上发表。他拥有剑桥大学机器学习硕士学位和香港大学理学士学位。

研究方向:人工智能安全与对齐等。





涉及到的参考文献




[1] H Liu, C Li, et al. Visual instruction tuning. NeurIPS, 2023.

[2] W Dai, J Li, et al. InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning. NeurIPS, 2023.

[3] A Awadalla, I Gao, et al. OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models . arXiv:2308.01390, 2023.

[4] Y Dong, H Chen, et al. How Robust is Google’s Bard to Adversarial Image Attacks? arXiv:2309.11751 2308, 2023.

[5] X Qi, Y Zeng, et al. Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! ICLR, 2024.




直播信息




时间:
2024年3月2日(周六)早上10:00-12:00。

参与方式:
扫码参与大模型安全与对齐读书会,加入群聊,获取系列读书会回看权限,成为社区的种子用户,与社区的一线科研工作者与企业实践者沟通交流,共同推动大模型安全与对齐读书会社区的发展。


大模型安全与对齐读书会


大模型的狂飙突进唤醒了人们对AI技术的热情和憧憬,也引发了对AI技术本身存在的社会伦理风险及其对人类生存构成的潜在威胁的普遍担忧。在此背景下,AI安全与对齐得到广泛关注,这是一个致力于让AI造福人类,避免AI模型失控或被滥用而导致灾难性后果的研究方向。集智俱乐部和安远AI联合举办「大模型安全与对齐」读书会,由多位海内外一线研究者联合发起,旨在深入探讨大模型安全与对齐所涉及的核心技术、理论架构、解决路径以及安全治理等交叉课题。



详情请见:
2024开年读书会:AI安全与对齐——应对前沿AI失控与滥用的技术路线

特别鸣谢安远AI对本次读书会的内容贡献。

安远AI是一家位于北京、专注于AI安全与治理的社会企业。我们的使命是引领人机关系走向安全、可信、可靠的未来。我们面向大模型和通用人工智能安全和对齐问题,进行风险研判、建立技术社区、开展治理研究、提供战略咨询以及推动国际交流。



点击“阅读原文”,报名读书会