如何评估与保障多模态大模型的图文安全？丨大模型安全与对齐读书会·周六直播

导语

集智俱乐部和安远AI联合举办“大模型安全与对齐”读书会，由多位海内外一线研究者联合发起，针对大模型安全与对齐所涉及的核心技术、理论架构、解决路径以及安全治理等交叉课题，展开共读共研活动。读书会自2024年1月27日正式开始，每周六上午举行，为期8-10周。欢迎从事相关研究与应用工作的朋友报名加入！

分享内容简介

相比于在大语言模型（LLMs）安全性方面取得的研究进展，对多模态大语言模型（MLLMs）的安全性的研究仍然处于早期阶段。新的模态（图片）带来了哪些新的风险？如何评测MLLMs的安全能力（比如评测集，评测指标）？有哪些方法可以抵制不安全的多模态输入？本次分享首先全面介绍MLLMs安全性的当前研究进展，然后详细介绍一篇研究MLLMs抵御恶意攻击的能力的工作，最后探讨了三个未来的研究方向。

分享内容大纲

综述：多模态大语言模型（MLLMs）的安全性

安全的概念理解
评估方法
攻击方法
防御方法

MM-SafetyBench：研究MLLMs抵御恶意攻击的能力

动机
核心方法
构建评估数据集
实验

未来的研究方向

可靠的安全评估
对安全风险的深入研究
安全对齐

主要涉及到的前置知识

多模态大语言模型

主要涉及到的话题讨论

Sora爆火背后，如何降低文生视频模型的滥用风险？
如何评估/衡量多模态大模型的攻击/防御效果?
我们如何应对攻击手段更多样、数据结构更复杂等多模态大模型的独特挑战？

主讲人介绍

刘馨，华东师范大学二年级硕士生，目前在上海人工智能实验室实习。近期撰写了多模态大模型安全性方面的一篇综述（arxiv.org/abs/2402.00357）、一篇构建安全评测数据集的工作（arxiv.org/abs/2311.17600）。在ACM MM、NeurIPS会议上参与发表学术论文，并担任CVPR 2024的审稿人。

研究方向：多模态大模型的安全性

主持人介绍

段雅文，安远AI技术项目经理，致力于AI安全技术社区建设。他是未来生命研究所AI Existential Safety PhD学者，关注大模型安全和对齐研究。他曾在UC Berkeley的Stuart Russell组和剑桥大学David Krueger实验室进行AI安全和对齐研究。他曾在NeurIPS组织Socially Responsible Language Model Research工作坊，参与的研究项目曾在CVPR、ECCV、ICML、ACM FAccT、NeurIPS MLSafety Workshop等ML/CS会议和工作坊上发表。他拥有剑桥大学机器学习硕士学位和香港大学理学士学位。

研究方向：人工智能安全与对齐等。

涉及到的参考文献

[1] H Liu, C Li, et al. Visual instruction tuning. NeurIPS, 2023.

[2] W Dai, J Li, et al. InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning. NeurIPS, 2023.

[3] A Awadalla, I Gao, et al. OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models . arXiv:2308.01390, 2023.

[4] Y Dong, H Chen, et al. How Robust is Google’s Bard to Adversarial Image Attacks? arXiv:2309.11751 2308, 2023.

[5] X Qi, Y Zeng, et al. Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! ICLR, 2024.

直播信息

时间：

2024年3月2日（周六）早上10:00-12:00。

参与方式：

扫码参与大模型安全与对齐读书会，加入群聊，获取系列读书会回看权限，成为社区的种子用户，与社区的一线科研工作者与企业实践者沟通交流，共同推动大模型安全与对齐读书会社区的发展。

大模型安全与对齐读书会

大模型的狂飙突进唤醒了人们对AI技术的热情和憧憬，也引发了对AI技术本身存在的社会伦理风险及其对人类生存构成的潜在威胁的普遍担忧。在此背景下，AI安全与对齐得到广泛关注，这是一个致力于让AI造福人类，避免AI模型失控或被滥用而导致灾难性后果的研究方向。集智俱乐部和安远AI联合举办「大模型安全与对齐」读书会，由多位海内外一线研究者联合发起，旨在深入探讨大模型安全与对齐所涉及的核心技术、理论架构、解决路径以及安全治理等交叉课题。

详情请见：

2024开年读书会：AI安全与对齐——应对前沿AI失控与滥用的技术路线

特别鸣谢安远AI对本次读书会的内容贡献。

安远AI是一家位于北京、专注于AI安全与治理的社会企业。我们的使命是引领人机关系走向安全、可信、可靠的未来。我们面向大模型和通用人工智能安全和对齐问题，进行风险研判、建立技术社区、开展治理研究、提供战略咨询以及推动国际交流。

点击“阅读原文”，报名读书会

如何评估与保障多模态大模型的图文安全？丨大模型安全与对齐读书会·周六直播

分享内容简介

分享内容大纲

主要涉及到的前置知识

主要涉及到的话题讨论

主讲人介绍

主持人介绍

涉及到的参考文献

直播信息

PNAS速递：复杂多细胞进化中，宏观进化模式的非适应性解释

Science Advances：融合物理知识的“气候不变”机器学习，提高气候预测能力

发表评论点击这里取消回复。

Koopman分析在非线性动力学中的应用

重磅系列课程：控制科学前沿理论与方法

第三代人工智能技术基础课程

范畴论入门系列课程

复杂系统入门与实战（Python）

热门浏览

DeepSeek-R1｜集智百科

谷歌量子芯片发布：量子纠错取得重要突破

具身智能读书会启动：走向现实世界的下一代AI系统

2024年诺奖解读：统计物理、人工智能与复杂科学

Nat. Rev. Neurosci. 综述：大脑结构与功能，分离还是耦合？

最新文章

PRX速递：复杂时间序列的共享因果驱动力识别

复杂网络上的自组织与集体行为：从扩散、相变到博弈 | 读书会启动

DeepSeek-R1｜集智百科

多模态大语言模型 vs 人类：视觉认知能力的较量

大语言模型在分子科学中的知识学习偏好：一项定量研究

如何评估与保障多模态大模型的图文安全？丨大模型安全与对齐读书会·周六直播

分享内容简介

分享内容大纲

主要涉及到的前置知识

主要涉及到的话题讨论

主讲人介绍

主持人介绍

涉及到的参考文献

直播信息

微信扫一扫,分享到朋友圈

PNAS速递：复杂多细胞进化中，宏观进化模式的非适应性解释

Science Advances：融合物理知识的“气候不变”机器学习，提高气候预测能力

猜你喜欢

PRX速递：复杂时间序列的共享因果驱动力识别

复杂网络上的自组织与集体行为：从扩散、相变到博弈 | 读书会启动

DeepSeek-R1｜集智百科

多模态大语言模型 vs 人类：视觉认知能力的较量

大语言模型在分子科学中的知识学习偏好：一项定量研究

集智贺岁，递归新生｜2025新春快乐！

发表评论 点击这里取消回复。

Koopman分析在非线性动力学中的应用

重磅系列课程：控制科学前沿理论与方法

第三代人工智能技术基础课程

范畴论入门系列课程

复杂系统入门与实战（Python）

热门浏览

DeepSeek-R1｜集智百科

谷歌量子芯片发布：量子纠错取得重要突破

具身智能读书会启动：走向现实世界的下一代AI系统

2024年诺奖解读：统计物理、人工智能与复杂科学

Nat. Rev. Neurosci. 综述：大脑结构与功能，分离还是耦合？

最新文章

PRX速递：复杂时间序列的共享因果驱动力识别

复杂网络上的自组织与集体行为：从扩散、相变到博弈 | 读书会启动

DeepSeek-R1｜集智百科

多模态大语言模型 vs 人类：视觉认知能力的较量

大语言模型在分子科学中的知识学习偏好：一项定量研究

关注我们的公众号

发表评论点击这里取消回复。