爬虫概述与HTML文本解析 | 周一直播·数据科学基础爬虫课

2022-10-09 2,133 0

导语

大数据时代，爬虫是一个重要的基本技能。想要学会爬虫，需要一个完整的技术体系，并动手实践。为了帮助学生真正学会爬虫，集智学园联合西安交通大学应用数学博士、现为南京审计大学讲师的卢燚老师精心设计了 8 小时系列爬虫课程，用简短的代码、精短的课时，讲解 3 种 Python 爬虫的基本方法，给你一个较为完整的爬虫技术体系。

「爬虫概述与HTML文本解析」为本系列课程的第一节，本次直播课程中，会先配置Python开发环境，将介绍HTML网页解析，DOM和CSS选择器。上完这节课，你将熟悉HTML的结构，并且知道如何用Python解析并提取HTML中的元素。快快加入吧！

课程简介

数据采集是数据相关科研工作者在工作中首先要面对的问题，常见的数据采集的方式有购买数据库，下载公开数据集，编写爬虫代码自己搜集等。爬虫作为一种成本低、用时短、针对性强、简单易行的可定制化手段，在数据采集的过程中起到了重要的作用。因此，掌握一个爬虫技能就成了很多研究者的基本素质和要求。

爬虫在实现逻辑上主要有两个部分，一个是设计爬行策略，另一个是解析每个网页。爬虫策略的制定帮助开发者较好地枚举想要的每一个页面，而解析网页则是精准地从网页上抓取想要的数据。本节课讲授如何解析一个HTML网页，从DOM地理解开始，配套使用CSS选择器来精准抓取网页中的数据，让浏览器中看到的页面变成一个个树形结构的DOM，并一一提取。

本节课中，首先，会简短介绍数据采集；其次，带领大家去安装配置Python开发环境，逐一解释DOM和CSS选择器；最后，会解析一个本地的网页。

课程大纲

数据采集概述

爬虫环境配置：Anaconda+Pycharm

网页基础：HTML之DOM

BeautifulSoup4库中CSS选择器用法

示例：用bs4解析一个本地HTML文本

课后作业

保存网页信息，用bs4抓取感兴趣的信息，体会DOM和bs4库的对应关系。

讲师介绍

卢燚，西安交通大学应用数学博士，现为大学讲师，曾在华为工作三年，拥有多年编程实战经验和一线教学经验，熟练掌握Python和NetLogo语言，对函数式编程有着浓厚的兴趣。讲授爬虫课两年，积累了大量的案例。

直播信息

直播时间：

2022年10月10日（周一）晚上20:00-21:00

参与方式：

报名课程，加入腾讯会议交流。

集智学园 B 站免费直播，房间号https://live.bilibili.com/6782735

给数据相关工作者的爬虫课

每周更新，持续报名中

系列课程大纲

本系列课程分为 8 节，每节课程包括 60 分钟的内容分享与 30 分钟的答疑。

课程目的

本系列系统讲述当前流行的三种爬虫思路，三种思路内容互相补充，基本覆盖大多数爬虫使用场景。帮助你：

从零到一，系统建立爬虫技术体系；

由易到难，学会三种数据采集思路；

课堂内外，即学即用快速上手获取数据。

对学员的基础要求

具有一定的python编程基础（使用python3）
懂一点算法和网络知识（可选）

课程适用对象

算法工程师

从事数据相关工作的研究者

有编程基础，对爬虫感兴趣的开发人员

课程特色

线上直播，示例丰富。

只讲基本框架，代码简洁有效

代码可拓展，实用性强

三种方法互相补充，覆盖大多数爬虫场景

课程内容框架

报名加入课程

课程价格 199，早鸟报名仅需 169 元，优惠于2022年10月14日截止。

扫码付费报名课程

第一步：扫码付费

第二步：在课程详情页面，填写“学员信息登记表”

第三步：扫码添加助教微信，入群

本课程可开发票。

点击“阅读原文”，报名课程

爬虫概述与HTML文本解析 | 周一直播·数据科学基础爬虫课

课程简介

课程大纲

课后作业

讲师介绍

直播信息

系列课程大纲

课程目的

对学员的基础要求

课程适用对象

课程特色

课程内容框架

报名加入课程

为什么物理诺奖颁给量子信息科学？——量子信息的过去、现在和未来

复杂演化金融市场与计算实验建模 | 周一直播·复杂经济学读书会

发表评论点击这里取消回复。

统计物理基础

重整化群分析在非线性物理中的应用

复杂系统的涌现动力学

Koopman分析在非线性动力学中的应用

重磅系列课程：控制科学前沿理论与方法

复杂系统入门与实战（Python）

热门浏览

最新文章

一盏灯，为你而亮丨集智招全职or兼职运营助理

系统科学：超越相对论与量子力学的科学革命

推荐｜苇草智酷·智盟酷创计划

Nature子刊：非线性动力学最新论文合集

【会议通知】第二十一届中国科技政策与管理学术年会暨研究会理事会会议（第四轮）

爬虫概述与HTML文本解析 | 周一直播·数据科学基础爬虫课

课程简介

课程大纲

课后作业

讲师介绍

直播信息

系列课程大纲

课程目的

对学员的基础要求

课程适用对象

课程特色

课程内容框架

报名加入课程

微信扫一扫,分享到朋友圈

为什么物理诺奖颁给量子信息科学？——量子信息的过去、现在和未来

复杂演化金融市场与计算实验建模 | 周一直播·复杂经济学读书会

猜你喜欢

一盏灯，为你而亮丨集智招全职or兼职运营助理

系统科学：超越相对论与量子力学的科学革命

推荐｜苇草智酷·智盟酷创计划

Nature子刊：非线性动力学最新论文合集

【会议通知】第二十一届中国科技政策与管理学术年会暨研究会理事会会议（第四轮）

清华大学崔鹏教授首创基于因果推理的大模型——极数（LimiX）大模型丨集智百科

发表评论 点击这里取消回复。

统计物理基础

重整化群分析在非线性物理中的应用

复杂系统的涌现动力学

Koopman分析在非线性动力学中的应用

重磅系列课程：控制科学前沿理论与方法

复杂系统入门与实战（Python）

热门浏览

最新文章

一盏灯，为你而亮丨集智招全职or兼职运营助理

系统科学：超越相对论与量子力学的科学革命

推荐｜苇草智酷·智盟酷创计划

Nature子刊：非线性动力学最新论文合集

【会议通知】第二十一届中国科技政策与管理学术年会暨研究会理事会会议（第四轮）

关注我们的公众号

发表评论点击这里取消回复。