导语


ChatGPT以其丰富的知识与出色的自然语言交互能力引起了现象级的关注,通过问答形式进行解答、创作、咨询、翻译等,改变了我们的思考和处理问题的方式,逐渐重塑各个行业的运营模式。ChatGPT取得令人惊艳的成就,这一切并不是一蹴而就的,那么GPT是如何炼就如此强大的?本期读书会,主讲人将基于GPT家族本身的发展、开源社区的大语言模型、以及若干公开的大型数据集,来观察数据的数量,分布,以及处理方式,对语言模型的影响。接着会回顾ChatGPT的官方以及第三方的原理解读,分析GitHub上依次出现的比较热门的ChatGPT相关平替并进行尝试,手把手教你如何上手使用这些模型,并展示模型的输出结果。


集智俱乐部的“后 ChatGPT”读书会由北师大教授、集智俱乐部创始人张江老师联合肖达、李嫣然、崔鹏、侯月源、钟翰廷、卢燚等多位老师共同发起,旨在系统性地梳理ChatGPT技术,并发现其弱点与短板。同时,结合集智俱乐部常年来积累的各种人工智能技术讨论,展望后GPT时代的人工智能都有哪些可能性?读书会自2023年3月3日开始,每周五晚上19:00-21:00举办,持续时间预计6周,欢迎对本话题感兴趣的朋友报名参加!





分享一:数据角度看GPT系列模型




与读书会主题之间的关系:

以GPT3为节点,OpenAI发布模型不再公布自己的详细的数据处理方式与数据源,本节介绍当前开源大模型构建与使用的数据集,以及数据处理的相关知识


主要涉及到的知识概念:

数据集,文档,分词,数据分布


分享简介:

ChatGPT发布后,大型语言模型(LLM)的能力刷新了用户对模型,算法与智能的看法。身为工程师,我认为GPT系列模型成功的关键在于简单,与规模化的扩展。其中,超大规模数据的获取与组织是ChatGPT魔力的根源。掌握与了解数据,就能对chatGPT表现出来的“魔法”拥有更加客观的认知,更好的将大语言模型的能力融入到工作生活,进行更多的创造。本节将基于GPT家族本身的发展,开源社区的大语言模型,以及若干公开的大型数据集,来观察数据的数量,分布,以及处理方式,对语言模型的影响。


分享大纲:

  1. 以GPT3为起点看数据

  2. 数据处理概念简述

  3. 大型数据项目介绍

  4. 训练数据之外的数据集的重要性

  5. 发散与随想




分享二:CahtGPT平替的原理与实践




与读书会主题之间的关系:

以ChatGPT为主题,探讨模型部署的相关细节,从开发者的角度去理解它的原理,充分利用起来本地的机器算力。


主要涉及到的知识概念:

LLaMA、Alpaca、ChatGLM、模型部署


分享简介:

ChatGPT发布之后,很多小型的ChatGPT平替随之而来,不懂ChatGPT的我们能否在本地上手一个小型的服务呢?本次分享将给出这个问题的答案。我们首先来回顾ChatGPT的官方以及第三方的原理解读,然后找几个GitHub上依次出现的比较热门的ChatGPT相关平替进行尝试,手把手教你如何上手使用这些模型,并展示一些模型的输出结果。虽然这些平替无法完全媲美官方的ChatGPT,但是动手的过程中会让你感受到当前技术的玩法和逻辑,也能够找一个本地的模型和它聊聊天。


分享大纲:

  1. ChatGPT第三方解读

  2. 几个平替介绍与原理




主讲人




侯月源,彩云科技算法工程师,2017年加入彩云科技从事深度学习算法与工程领域的研究与开发,从事数据获取与清理,模型构建与训练,深度学习基础设施开发等一线工作。在深度学习方面深度学习有较丰富的经验,对深度学习模型的可解释性,深度学习在各种场景的应用较感兴趣。作为集智俱乐部志愿者,在集智出版的《深度学习原理与PyTorch实战》第2版,以及相关课程中亦有贡献。
集智斑图个人主页:https://pattern.swarma.org/user/58

卢燚,西安交通大学应用数学博士,现为大学讲师,曾在华为工作三年,拥有多年编程实战经验和一线教学经验,熟练掌握Python和NetLogo语言,对函数式编程有着浓厚的兴趣。讲授爬虫课两年,积累了大量的案例。
集智斑图个人主页:https://pattern.swarma.org/user/78037




直播信息




时间:
2023年4月7日(周五)  晚上 19:00-21:00

参与方式:
1、扫描预约

扫码参与读书会,加入群聊获取本系列读书会的视频回放权限、资料权限,与社区的一线科研工作者和企业实践者沟通交流。


2、视频号预约


“后ChatGPT”读书会启动


集智俱乐部的“后 ChatGPT”读书会由北师大教授、集智俱乐部创始人张江老师联合肖达、李嫣然、崔鹏、侯月源、钟翰廷、卢燚等多位老师共同发起,旨在系统性地梳理ChatGPT技术,并发现其弱点与短板。同时,结合集智俱乐部常年来积累的各种人工智能技术讨论,展望后GPT时代的人工智能都有哪些可能性?读书会自2023年3月3日开始,每周五晚上举办,持续时间预计6周,欢迎对本话题感兴趣的朋友报名参加!


详情请见:
“后 ChatGPT”读书会启动:从通用人工智能到意识机器

课程推荐:
链接:https://campus.swarma.org/course/182?from=wechat

链接:https://campus.swarma.org/course/1056?from=wechat

点击“阅读原文”,报名后ChatGPT读书会