图源:Hugging Face。https://huggingface.co/blog/evaluating-llm-bias


导语


随着文字和图像生成大模型的普及,人工智能正在悄然改变我们的生活和工作方式。但是,新的问题也随之出现:这些生成式大模型中是否存在社会性风险,例如偏见、歧视?

本次分享,我们邀请到加州大学洛杉矶分校(UCLA)计算机系博士生、亚马逊Alexa生成式人工智能(AGI)研究组实习生——万奕欣,与我们讨论一下问题:(1)生成式大模型中是否存在偏见问题?(2)怎样衡量模型中的偏见?(3)如何解决模型中的偏见?

除了大语言模型中的偏见问题,本次还分享了模型偏见的新兴究研究领域:文本生成图片大模型中的偏见问题。

本次分享不只是关于技术问题的讨论,它还鼓励我们思考如何在快速变化的AI领域中,确保技术的发展与人类的价值观和社会正义相协调。通过这次深入的交流,我们希望激发更多关于AI技术社会责任的思考与讨论。

本期读书会时间为:6月22日10:30-12:30(周六),直播报名入口见后文。





该分享与读书会整体主题之间的关系




大语言模型的公平、偏见和真实性问题,直接触及了我们如何利用计算方法来解析和应对AI技术中固有的社会性风险。这不仅是技术挑战,更是社会科学研究的前沿课题。通过深入分析大型语言模型和文本到图像模型中的偏见表现,我们挖掘了计算社会科学在促进技术伦理和公平性方面的潜力。

在计算社会科学的背景下,本次分享不只是关于技术问题的讨论,它还鼓励我们思考如何在快速变化的AI领域中,确保技术的发展与人类的价值观和社会正义相协调。通过这次深入的交流,我们希望激发更多关于AI技术社会责任的思考与讨论。




简介




随着文字和图像生成大模型的普及,人工智能正在悄然改变我们的生活和工作方式。但是,新的问题也随之出现:这些生成式大模型中是否存在社会性风险,例如偏见、歧视?我们需要注意哪些生成式大模型中存在的社会科学问题?是否有方法解决?本次主讲内容分三部分解答了这三个问题,并介绍了一系列相关论文。除了大语言模型中的偏见问题,本次还分享了模型偏见的新兴究研究领域:文本生成图片大模型中的偏见问题。对于这个问题,我们(1)分享了最新的衡量文本生成图片大模型的方法,(2)分享了最新的关于文本生成图片大模型中偏见问题的综述论文;(3)分享了指出现有偏见解决方案中存在的真实性问题(factuality)的最新论文。通过对这些文章的解读,本次分享旨在为参与者提供一些对于这个新兴研究方向的信息及进展,并指出了现有研究中可以改进的部分,为感兴趣的研究者指出了十分有潜力的研究方向。




参考论文



 

本次分享分为三部分:(1)生成式大模型中是否存在偏见问题?(2)怎样衡量模型中的偏见?(3)如何解决模型中的偏见?每一部分的分享都包含了相关最新论文的解读。以下是计划在每一部分分享的相关论文。

 • 第一部分:生成式大模型中是否存在偏见问题?

  • Wan, Y., Pu, G., Sun, J., Garimella, A., Chang, K.-W., & Peng, N. (2023). “Kelly is a warm person, Joseph is a role model”: Gender biases in LLM-Generated reference letters. ArXiv.org. https://arxiv.org/abs/2310.09219

  • Wan, Y., Subramonian, A., Ovalle, A., Lin, Z., Suvarna, A., Chance, C., Bansal, H., Pattichis, R., & Chang, K.-W. (2024). Survey of bias in text-to-image generation: Definition, evaluation, and mitigation. ArXiv.org. https://arxiv.org/abs/2404.01030

 • 第二部分:怎样衡量模型中的偏见?

  • Wan, Y., & Chang, K.-W. (2024). White men lead, black women help? Benchmarking language agency social biases in LLMs. ArXiv.org. https://arxiv.org/abs/2404.10508

  • Wan, Y., Zhao, J., Chadha, A., Peng, N., & Chang, K.-W. (2023). Are personalized stochastic parrots more dangerous? Evaluating persona biases in dialogue systems. ArXiv.org. https://arxiv.org/abs/2310.05280

  • Wan, Y., & Chang, K.-W. (2024). The male CEO and the female assistant: Probing gender biases in text-to-image models through paired stereotype test. ArXiv.org. https://arxiv.org/abs/2402.11089

 • 第三部分:如何解决模型中的偏见?现有方法存在什么问题?

  • Zhao, J., Wang, T., Yatskar, M., Ordonez, V., & Chang, K.-W. (2017). Men also like shopping: Reducing gender bias amplification using corpus-level constraints. ArXiv.org. https://arxiv.org/abs/1707.09457

  • Bansal, H., Yin, D., Monajatipoor, M., & Chang, K.-W. (2022). How well can text-to-image generative models understand ethical natural language interventions? ArXiv.org. https://arxiv.org/abs/2210.15230

  • The factuality tax of diversity-intervened text-to-image generation: Benchmark and fact-augmented intervention




大纲



  

  • 生成式大模型中有哪些偏见问题?

    • 大语言模型

    • 文本生成图片大模型

  • 怎样衡量模型中的偏见?

    • 量化方法

    • 可视化方法

  • 怎样解决模型中的问题?

    • 现有方法(指令微调方法,训练方法,推理环节方法)

    • 存在问题

    • 未来研究方向





涉及到的关键知识概念



 

  • 大语言模型 large language model

  • 文本生成图片大模型 large text-to-image (T2I) model

  • 模型偏见 model bias

  • 模型平等 model fairness

  • 偏见解决方案 bias mitigation method

  • 模型真实性 model factuality





主讲人




万奕欣,加州大学洛杉矶分校(UCLA)计算机系博士生、亚马逊Alexa生成式人工智能(AGI)研究组实习生。本科同毕业于加州大学洛杉矶分校,主修应用数学及经济学双专业;曾实习于微软亚洲研究院(MSRA)、腾讯等头部公司。主要研究领域包括大模型偏见问题,可控生成式大模型,生成式大模型真实性等。




直播信息




直播时间:

6月22日10:30-12:30(周六),直播报名入口见后文。

参与方式:

集智俱乐部 B 站账号直播,扫码可预约:

扫码预约本次直播


若需要观看视频回放,文末扫码付费参加AI+Social Science读书会可加入腾讯会议,可提问交流、加入群聊、获取视频回放及更多学习资料,成为计算社会科学社区种子用户,与700余名计算社会科学的一线科研工作者沟通交流,共同推动计算社会科学社区的发展。





报名成为主讲人




读书会成员均可以在读书会期间申请成为主讲人。主讲人作为读书会成员,均遵循内容共创共享机制,可以获得报名费退款,并共享本读书会产生的所有内容资源。具体见系列读书会详情:AI+Social Science:大模型怎样重塑社会科学 | 计算社会科学读书会第三季启动



AI+Social Science读书会启动


集智俱乐部联合美国东北大学博士后研究员杨凯程、密歇根大学安娜堡分校博士候选人裴嘉欣,宾夕法尼亚大学沃顿商学院人力资本分析研究组博士后研究员吴雨桐、即将入职芝加哥大学心理学系的助理教授白雪纯子,共同发起AI+Social Science读书会,从3月24日开始,每周日晚20:00-22:00,探究大语言模型、生成式AI对计算社会科学领域带来的新思想新价值。


详情请见
AI+Social Science:大模型怎样重塑社会科学 | 计算社会科学读书会第三季启动



点击“阅读原文”,报名读书会