大模型知识回路的形成与SAE在可解释中的潜力丨周四直播·大模型可解释性读书会

导语


分享简介
分享简介
本次分享首先介绍语言模型内部知识回路的形成过程并展现理解LLM的难点:多义性。为了解决每一维编码了多个互相正交的知识,我们进一步介绍稀疏自编码器(Sparse Auto Encoder)这个打破多义性迈向单义性的新兴的解释性工具。我们会进一步讨论稀疏自编码器的三个应用前景,包括如何利用它来“理解” LLM 的行为(以 Anthropic Haiku 为例),以及如何利用它来实现可控的文本分类和文本生成。作为一个新兴的技术,分享会将以讨论该方向的前景与挑战结束。
分享大纲
分享大纲
-
大语言模型的知识回路的形成过程
-
语言模型知识召回的回路
-
回路视角下语言模型是如何学习新知识
-
稀疏自编码器简述
-
Polysemantic下可解释的挑战
-
稀疏自编码器的原理
-
稀疏自编码器的架构与训练
-
稀疏自编码器的应用
-
SAE用于模型分析:大型语言模型的生物学原理
-
SAE用于文本分类:去除“捷径”特征,提升分类泛化性
-
SAE用于文本生成:增强模型安全意识,抵御越狱攻击
-
讨论
-
如何更好地利用SAE来理解更复杂的模型行为(如数学推理)?
-
SAE是否能更好地实现可控文本生成?
核心概念
核心概念
-
稀疏自编码器 Sparse Auto Encoder(SAE)
-
知识回路 Knowledge Circuits
-
多义性 Polysemanticity
参考文献
参考文献
-
Yunzhi, Yao, et al. Knowledge Circuits in Pretrained Transformers. NeurIPS 2024
-
Yixin, Ou, et al. How do llms acquire new knowledge? a knowledge circuits perspective on continual pre-training. ACL 2025
-
Huben, Robert, et al. “Sparse autoencoders find highly interpretable features in language models.” The Twelfth International Conference on Learning Representations. 2023.
-
Gao, Leo, et al. “Scaling and evaluating sparse autoencoders.” The Thirteenth International Conference on Learning Representations.
-
Anthropic. “Towards Monosemanticity: Decomposing Language Models With Dictionary Learning.” Transformer Circuits Thread. 2023. https://transformer-circuits.pub/2023/monosemantic-features
-
Anthropic. “On the Biology of a Large Language Model.” Transformer Circuits Thread. 2025. https://transformer-circuits.pub/2025/attribution-graphs/biology.html
-
Shu, Dong, et al. “A survey on sparse autoencoders: Interpreting the internal mechanisms of large language models.” arXiv. 2025.
-
Wu, Xuansheng, et al. “Self-regularization with latent space explanations for controllable llm-based classification.” KDD. 2025.
-
Wu, Xuansheng, et al. “Interpreting and steering llms with mutual information-based explanations on sparse autoencoders.” arXiv. 2025.
主讲人简介
主讲人简介

姚云志,浙江大学计算机科学与技术学院博士生,导师为陈华钧教授与张宁豫教授,目前是UCLA的Nanyun Peng组访问研究学者。研究方向为大语言模型知识增强,知识编辑与可解释性。

吴烜圣,佐治亚大学计算机系四年级博士生,研究方向为可用的大语言模型解释性(Usable XAI),关注于如何更好地理解知识在模型隐空间的表示以实现更好的模型控制。他已发表同行评审论文14篇,累计引用量700+,曾于腾讯 AI Lab、百度 NLP、亚马逊Rufus等业内顶尖团队实习。
参与方式
参与方式
参与时间
2025年7月20日(周日)上午10:00-12:00
报名加入社群交流

https://pattern.swarma.org/study_group_issue/945?from=wechat
扫码参与「大模型可解释性」读书会,加入社群,获取系列读书会永久回看权限,与社区的一线科研工作者沟通交流,共同探索大模型可解释性这一前沿领域的发展。
大模型可解释性读书会
集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起「大模型可解释性」读书会。本读书会旨在突破大模型“黑箱”困境,尝试从以下四个视角梳理大语言模型可解释性的科学方法论:
自下而上:Transformer circuit 为什么有效?
自上而下:神经网络的精细决策逻辑和性能根因是否可以被严谨、清晰地解释清楚?
点击“阅读原文”,报名读书会





