导语


大数据时代,爬虫是一个重要的基本技能。想要学会爬虫,需要一个完整的技术体系,并动手实践。为了帮助学生真正学会爬虫,集智学园联合西安交通大学应用数学博士、现为南京审计大学讲师的卢燚老师精心设计了 8 小时系列爬虫课程,用简短的代码、精短的课时,讲解 3 种 Python 爬虫的基本方法,给你一个较为完整的爬虫技术体系。


「利用requests和BeautifulSoup4写爬虫」是本系列课程的第二节,也是系列课程最后一次直播课。本节课将先介绍与爬虫相关的HTTP方法、状态码、Robots协议等HTTP知识,再介绍一个Chrome浏览器自带的爬虫必备工具:Chrome开发者工具,该工具是写爬虫代码之前需要花大量时间分析网站的解析工具。最后讲解requests库的使用方法。






课程简介




要写好一个爬虫得掌握两个部分,一是爬虫策略,二是网页解析。上节课卢燚老师讲了爬虫基本功,即如何利用BeautifulSoup4解析DOM来提取一个HTML文件中的信息。把HTML文件抽象成一棵树的结构叫做DOM,再利用DOM解析工具解析DOM对象,最后通过CSS选择器提取其中的内容。这一部分内容非常重要,一定要多加练习,好好体会其中的真义。

本节课我们来补全爬虫的第二块版图。首先介绍爬虫相关的HTTP知识,有HTTP方法、状态码、Robots协议等。有了这些基础知识,我们再去读相关代码的API文档就不会一头雾水了,我们也可以像个专业人士一样使用官方API。其次,会认识一个爬虫必备工具:Chrome开发者工具。该工具无需安装,是Chrome浏览器自带的工具,装有Chrome类浏览器的可以直接使用(比如微软的Edge浏览器)。该工具是我们写爬虫之前需要花大量时间分析网站的必备工具。最后,会讲解requests库的使用方法,如何应用requests库对网站发送请求。requests库就是给人用的urllibx库。有了这个工具,我们可以将HTML文件下载到本地,然后再基于上节课讲到的CSS选择器解析HTML。上完这节课,你将会完整地写出简单的爬虫代码,在爬虫路上迈进你的一小步,一起加油吧!




本节课程大纲




1. HTTP基础:HTTP方法、状态码、Robots协议

2. 网页查看工具:Chrome开发者工具

3. requests库常见用法

4. 示例:编写一个新闻类网站的爬虫





课后作业




尝试爬取一个openreview会议上历史以来的全部PDF文件和附件。




讲师介绍




卢燚,西安交通大学应用数学博士,现为大学讲师,曾在华为工作三年,拥有多年编程实战经验和一线教学经验,熟练掌握Python和NetLogo语言,对函数式编程有着浓厚的兴趣。讲授爬虫课两年,积累了大量的案例。





直播信息




直播时间:
2022年10月14日(周五)晚上20:00-21:00

参与方式:
  • 报名课程,加入腾讯会议交流。

  • 集智学园 B 站免费直播,房间号https://live.bilibili.com/6782735



给数据相关工作者的爬虫课

每周更新,持续报名中



系列课程大纲

本系列课程分为 8 节,每节课程包括 60 分钟的内容分享与 30 分钟的答疑。


课程目的

本系列系统讲述当前流行的三种爬虫思路,三种思路内容互相补充,基本覆盖大多数爬虫使用场景。帮助你:

  1. 从零到一,系统建立爬虫技术体系;

  1. 由易到难,学会三种数据采集思路;

  1. 课堂内外,即学即用快速上手获取数据。


对学员的基础要求

  1. 具有一定的python编程基础(使用python3)

  2. 懂一点算法和网络知识(可选)

 

课程适用对象

  1. 算法工程师

  1. 从事数据相关工作的研究者

  1. 有编程基础,对爬虫感兴趣的开发人员


课程特色

  1. 线上直播,示例丰富。

  1. 只讲基本框架,代码简洁有效

  1. 代码可拓展,实用性强

  1. 三种方法互相补充,覆盖大多数爬虫场景


课程内容框架


报名加入课程

课程价格 199,早鸟报名仅需 169 元,优惠于2022年10月14日截止。

扫码付费报名课程

第一步:扫码付费

第二步:在课程详情页面,填写“学员信息登记表”

第三步:扫码添加助教微信,入群

本课程可开发票。


点击“阅读原文”,报名课程