导语


大数据时代,爬虫是一个重要的基本技能。想要学会爬虫,需要一个完整的技术体系,并动手实践。为了帮助学生真正学会爬虫,集智学园联合西安交通大学应用数学博士、现为南京审计大学讲师的卢燚老师精心设计了 8 小时系列爬虫课程,用简短的代码、精短的课时,讲解 3 种 Python 爬虫的基本方法,给你一个较为完整的爬虫技术体系。


「爬虫概述与HTML文本解析」为本系列课程的第一节,本次直播课程中,会先配置Python开发环境,将介绍HTML网页解析,DOM和CSS选择器。上完这节课,你将熟悉HTML的结构,并且知道如何用Python解析并提取HTML中的元素。快快加入吧!






课程简介




数据采集是数据相关科研工作者在工作中首先要面对的问题,常见的数据采集的方式有购买数据库,下载公开数据集,编写爬虫代码自己搜集等。爬虫作为一种成本低、用时短、针对性强、简单易行的可定制化手段,在数据采集的过程中起到了重要的作用。因此,掌握一个爬虫技能就成了很多研究者的基本素质和要求。

爬虫在实现逻辑上主要有两个部分,一个是设计爬行策略,另一个是解析每个网页。爬虫策略的制定帮助开发者较好地枚举想要的每一个页面,而解析网页则是精准地从网页上抓取想要的数据。本节课讲授如何解析一个HTML网页,从DOM地理解开始,配套使用CSS选择器来精准抓取网页中的数据,让浏览器中看到的页面变成一个个树形结构的DOM,并一一提取。

本节课中,首先,会简短介绍数据采集;其次,带领大家去安装配置Python开发环境,逐一解释DOM和CSS选择器;最后,会解析一个本地的网页。




课程大纲




  1. 数据采集概述

  1. 爬虫环境配置:Anaconda+Pycharm

  1. 网页基础:HTML之DOM

  1. BeautifulSoup4库中CSS选择器用法

  1. 示例:用bs4解析一个本地HTML文本





课后作业




保存网页信息,用bs4抓取感兴趣的信息,体会DOM和bs4库的对应关系。




讲师介绍




卢燚,西安交通大学应用数学博士,现为大学讲师,曾在华为工作三年,拥有多年编程实战经验和一线教学经验,熟练掌握Python和NetLogo语言,对函数式编程有着浓厚的兴趣。讲授爬虫课两年,积累了大量的案例。





直播信息




直播时间:
2022年10月10日(周一)晚上20:00-21:00

参与方式:
  • 报名课程,加入腾讯会议交流。

  • 集智学园 B 站免费直播,房间号https://live.bilibili.com/6782735



给数据相关工作者的爬虫课

每周更新,持续报名中



系列课程大纲

本系列课程分为 8 节,每节课程包括 60 分钟的内容分享与 30 分钟的答疑。


课程目的

本系列系统讲述当前流行的三种爬虫思路,三种思路内容互相补充,基本覆盖大多数爬虫使用场景。帮助你:

  1. 从零到一,系统建立爬虫技术体系;

  1. 由易到难,学会三种数据采集思路;

  1. 课堂内外,即学即用快速上手获取数据。


对学员的基础要求

  1. 具有一定的python编程基础(使用python3)

  2. 懂一点算法和网络知识(可选)

课程适用对象

  1. 算法工程师

  1. 从事数据相关工作的研究者

  1. 有编程基础,对爬虫感兴趣的开发人员


课程特色

  1. 线上直播,示例丰富。

  1. 只讲基本框架,代码简洁有效

  1. 代码可拓展,实用性强

  1. 三种方法互相补充,覆盖大多数爬虫场景


课程内容框架


报名加入课程

课程价格 199,早鸟报名仅需 169 元,优惠于2022年10月14日截止。

扫码付费报名课程

第一步:扫码付费

第二步:在课程详情页面,填写“学员信息登记表”

第三步:扫码添加助教微信,入群

本课程可开发票。


点击“阅读原文”,报名课程